Ich habe hier eine ältere Doktorarbeit (University of Florida, 1988), die auf archives.org archiviert wurde. Die lässt sich auch im Browser problemlos durchblättern, aber ich würde sie zwecks Ausdruck/offline-Arbeit gern herunterladen. Dabei erhalte ich zunächst ein *.gz-Archiv, und nach dem Entpacken eine einzelne Datei, deren Namen korrekt erscheint (entspricht dem Haupttitel der Diss). Allerdings fehlt eine explizite Dateiendung. Thunar sagt mir, dass es sich um eine XML-Datei handele (statt des zu erwartenden PDF). Wenn ich nun versuche, diese Datei mit einer naheliegenden Anwendung zu öffnen (Okular oder Firefox sollten eingebaute XML-Parser enthalten), so stürzen diese kommentarlos ab. Mit einem einfachen Editor kann ich zwar den XML-Content einsehen, bekomme aber kein wirklich lesbares Ergebnis. Die ersten Zeilen sehen dann so aus:

<?xml version="1.0" encoding="UTF-8"?>
<document version="1.0" producer="LuraTech XML Exporter for ABBYY FineReader" pagesCount="603"           
 xmlns="http://www.abbyy.com/FineReader_xml/FineReader6-schema-v1.xml" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.abbyy.com/FineReader_xml/FineReader6-schema-v1.xml http://www.abbyy.com/FineReader_xml/FineReader6-schema-v1.xml">
<page width="2388" height="3228" resolution="300" originalCoords="true">
<block blockType="Text" l="610" t="754" r="1664" b="901">
<region><rect l="610" t="754" r="1664" b="901"></rect></region>
<text backgroundColor="16711422">

Wer zum Teufel archiviert eine Doktorarbeit in XML? 1988 wurden 600 Seiten lange Doktorarbeiten noch auf Schreibmaschinen geschrieben, und dann in drei- bis fünffacher Ausfertigung im Dekanat deponiert. XML gibt es überhaupt erst seit 1998! Nun kann man archives.org aber auch nicht gerade als unseriöse Quelle abtun - dort werden auch Inkunabeln als PDF archiviert, und die stammen per Definition aus der Zeit vor 31.12.1500!

Natürlich wollte ich auch halbschlau sein, und habe einfach die fehlende Endung .xml an den Dateinamen angehängt. In diesem Fall zeigt Okular das gleiche Ergebnis wie Leafpad, aber Firefox hängt sich völlig auf.

Nun bitte ich um Kommentare und Lösungsvorschläge.

    Meistens bietet archive.org da ganz verschiedene Formate zum Download an.

    Wenn du ABBYY GZ erwischt hast, das ist viel zu speziell. Das machst du nicht im Browser auf...

    https://help.archive.org/help/file-formats/

    GZipped version of the full ABBYY FineReader XML output, which includes all character-level information (confidence, location, etc.)

    Die Dateien sind auch schlichtweg RIESIG. Jeder einzelne Buchstabe ist da ein ellenlanger XML Tag. Gepackt 33M, entpackt 500M, einmal mit tidy leserlich formatieren 4GB RAM weg, beim Versuch es im chromium zu öffnen passiert das gleiche, es frisst gigabyteweise RAM und dann stürzt der Tab ab... RAM habe ich genug aber der Browser wird da ein Limit haben.

    Mit sed -r -e 's@<[^>]*>@@g' wirds halbwegs leserlich. Aber nicht gut...

    Ich habe mal nach Finereader6 gesucht. Das ist ja eine Texterkennung von 2002 mit der wahrscheinlich auch das Dokument erstellt wurde. Vielleicht kommst du damt weiter.

    Verlink mal die ganze Datei. Mit dem Snippet kann Neovim was anfangen und parst es ordnungsgemäß.

    Aber dort gibts doch auch PDF, Bilder, Text, ...?

    ABBYY ist auch nur Text mit (ohne weiteres nutzlosen) Metadaten. Da steht auch nicht mehr drin...

    matthias Eigentlich ist es idiotisch, Texte in PDF zu archivieren. PDF ist eigentlich ein reines Druckformat, bzw. sollte das endlich so verstanden werden. Wenn ich aber was am Bildschirm lese bzw. benutze, dann ist eben PDF einfach nur nevig, vor allem, wenn man das auf kleineren Bildschirmen lesen will. Für Bildschirme ist ein Format, das nicht ein starres layout hat, viel vorteilhafter. Zauberwort ist hier „responsive“. Und sowas wie XML oder die Spezialform davon, HTML, lassen sich eben gut responsive beschreiben und auch der Inhalt von der Darstellung trennen. So steht es einem Nutzer frei, den selben Text in großer, grüner Schriftart per Projektor sich durchzulesen als auch einem anderen Nutzer den selben Text in klein in weiß auf schwarzen Grund auf seinem UMPC Nachts im Bett. PDF sollte halt nur in Betracht gezogen werden, wenn man sich ein festes layout ausdrucken will und dann eben auch nur unmittelbar vor dem Druck als temporäre Druckdatei. Ansonsten sollten Text/Inhalte eben in einr flexibleren Form gespeichert sein, die eben je nach Betrachtungsart „on the fly“ dann angezeigt wird. Und das ist eben gut mit XML machbar, da auch in seiner „Rohfrom“ von Menschen mit einem einfachen Texteditor lesbar.

    Also, die Finereader-XML-Datei lässt sich in Neovim öffnen und wird auch als Valide geparst, auch wenn es ein paar Minuten bei 100% CPU-Last gedauert hat. Die PDF-Datei lässt sich im Browser öffnen. Bei beidem ist die Performance ist aber eher mau. Das Laden der XML-Datei hat im Browser aber bei unter 50 Prozent schon fast 12 GB RAM benötigt, daher hab ichs abgebrochen.

    Ich vermute, das ist nicht das alter der Datei, sondern die schiere Größe. Auch scheint bei der PDF-Datei jedes einzelne Zeichen in ein eigenes XML-Tag mit diversen Attributen geschmissen worden zu sein, was einen Overhead von über 240 Zeichen XML-Daten pro Textzeichen verursacht.

    matthias aber ich würde sie zwecks Ausdruck/offline-Arbeit gern herunterladen.

    wget https://archive.org/download/imperialpanamaco00ward_0/imperialpanamaco00ward_0.pdf

    Das PDF ist wohl dafür am geeignetsten und läßt sich (ca. 24MB) mit PDF-Readern auch gut handhaben.
    Ich habe es kurz nochmal über die .djvu Variante versucht, mangels Erfahrung aber nach einem Versuch mit einem DJVU-Betrachter aufgegeben.

    Diese Dokumente auf der (!Archiv!)-Seite sind halt teilweise sehr alt und haben damalig mögliche Digitalisierungen durchlaufen.
    Das Satzbild sieht mit z.B. stark nach damalig üblicher IBM-Kugelkopf Schreibmaschine(ja!) aus, hat also wohl diverse OCR-Läufe/Umformatierungen hinter sich.

    Okay, Gerbra hat mal wieder eine beschämend einfache Lösung gefunden. Es funktioniert, und ich habe als Produkt der Click-and-run-Generation mal wieder zu kompliziert gedacht. Solche Dinge kann mann/frau aber echt nur als Produkt einer Kampfpause im Korea-Krieg wissen (ich meine jetzt nicht den aus 1950ern, sondern den russischen/japanischen um 1905).
    Grützi an GerBra, und wer denkt bitteschön da jetzt an wget?

    Fehlt bei dir irgendwie die Downloadbox auf der rechten Seite?

    wget alleine hilft ja nicht, wenn man den Downloadlink nicht kennt.

    Die Format-Liste ist leider alphabetisch sortiert statt nach Nützlichkeit, deswegen das ABBYY ganz oben...

    Ähh - nein, die Downloadbox ist schon da (wenn man lange genug runterscrollt). Sorry für viel Lärm um nix, aber immerhin etwas dazu gelernt.