sha schriebDas sind nun aber relativ viele Seiten geworden und deshalb sind für mich die kompletten downloads von den "alten" Seiten (die ich ja schon hab) lästig. Kann mir daher vielleicht einer sagen, wie man nur einen kleinen Teil heruntergelädt, mit dem man überprüfen kann, ob die Daten noch aktuell sind (falls dies überhaupt möglich ist).
Vergiss es … 🙂
Du kannst nach dem Download und dem Bearbeiten mit dem Script das Ergebnis mit dem vorherigen Ergebnis vergleichen, und dann entweder das Ergebnis weiterverarbeiten, oder verwerfen, je nachdem, was der Vergleich ergeben hat, aber eine Möglichkeit,
vorher schon zu ermitteln, ob sich was geändert hat, gibt es nicht.
Idee: Wenn es deine Seiten sind, könntest du deinen Webserver oder deine Website so konfigurieren, dass in einem X-Header das Datum der letzten Änderung mitgesendet wird. Wenn es nicht deine Seite ist, könntest du gucken, ob der Anbieter eine API bereitstellt.
Andererseits: Wie viel Traffic macht es schon aus? Die Heise-Online-Startseite ist gerade mal 60541 Byte klein. Es wird ja nicht alles geladen, was der Browser sieht, sondern nur der HTML-Kram. Ist es wirklich nötig, solchen Aufwand zu betreiben? Reicht es nicht schon, curl mit
--compressed als Parameter zu starten (am Beispiel der Heise-Startseite spart das 44952 Byte)