Arch Linux

Herunterladen von aktuellen Web-Seiten

sha

Hi,

ich habe ein kleines PERL-Skript bei dem ich mit

@feld=qx( curl "http://webside.de" | html2text )

mehrere Webseiten herunterlade (und noch etwas bearbeite). Diese Web-Seiten werden in unregelmäßigen Abständen aktualisiert.

Das sind nun aber relativ viele Seiten geworden und deshalb sind für mich die kompletten downloads von den "alten" Seiten (die ich ja schon hab) lästig. Kann mir daher vielleicht einer sagen, wie man nur einen kleinen Teil heruntergelädt, mit dem man überprüfen kann, ob die Daten noch aktuell sind (falls dies überhaupt möglich ist).
Ich dachte anfangs an den Header, aber der bietet dafür keine Informationen.

LG,
sha

Dirk

sha schriebDas sind nun aber relativ viele Seiten geworden und deshalb sind für mich die kompletten downloads von den "alten" Seiten (die ich ja schon hab) lästig. Kann mir daher vielleicht einer sagen, wie man nur einen kleinen Teil heruntergelädt, mit dem man überprüfen kann, ob die Daten noch aktuell sind (falls dies überhaupt möglich ist).

Vergiss es … 🙂

Du kannst nach dem Download und dem Bearbeiten mit dem Script das Ergebnis mit dem vorherigen Ergebnis vergleichen, und dann entweder das Ergebnis weiterverarbeiten, oder verwerfen, je nachdem, was der Vergleich ergeben hat, aber eine Möglichkeit, vorher schon zu ermitteln, ob sich was geändert hat, gibt es nicht.

Idee: Wenn es deine Seiten sind, könntest du deinen Webserver oder deine Website so konfigurieren, dass in einem X-Header das Datum der letzten Änderung mitgesendet wird. Wenn es nicht deine Seite ist, könntest du gucken, ob der Anbieter eine API bereitstellt.

Andererseits: Wie viel Traffic macht es schon aus? Die Heise-Online-Startseite ist gerade mal 60541 Byte klein. Es wird ja nicht alles geladen, was der Browser sieht, sondern nur der HTML-Kram. Ist es wirklich nötig, solchen Aufwand zu betreiben? Reicht es nicht schon, curl mit --compressed als Parameter zu starten (am Beispiel der Heise-Startseite spart das 44952 Byte)

sha

Hallo Dirk,

Danke für die Antwort. Den Parameter --compressed hab ich irgendwie überlesen :rolleyes:.

Dirk Sohler schriebIst es wirklich nötig, solchen Aufwand zu betreiben?

Mit --compressed dauert der download insgesamt 2-3 Minuten (zum Vgl.: vorher etwa *3 (ich weiß, dass ich eine langsame Verbindung habe :/ )). Somit hat sich der Aufwand jetzt schon gelohnt 😉.

Dirk Sohler schriebIdee: Wenn es deine Seiten sind, könntest du deinen Webserver oder deine Website so konfigurieren, dass in einem X-Header das Datum der letzten Änderung mitgesendet wird. Wenn es nicht deine Seite ist, könntest du gucken, ob der Anbieter eine API bereitstellt.

Sind nicht meine.

LG,
sha