Hallo zusammen,
ich benutze folgenden Setup um Dokumente zu scannen:
1. Scan per XSane (nach tif)
2. Optimierung mit Scantailor (nach tif)
3. Texterkennung mit tesseract (direct nach pdf)
tesseract -l deu input.tif output pdf
4. Anpassung des PDF mit gs an PDF Format, Pagesize etc.
gs -sDEVICE=pdfwrite -sPAPERSIZE=a4 -dFIXEDMEDIA -dPDFFitPage -dCompatibilityLevel=1.7 -o input.pdf ouput.pdf
5. Optional verinigung mehrerer Seiten mit pdfunite
Mir ist jetzt jedoch aufgefallen, dass die erstellen PDF-Dateien ein PrRoblem haben. Während sich Text aus den PDFs von tesseract direkt kopieren lässt, haben die PDFs von gs scheinbar zwischen allen Buchstaben ein zusätzliches Leerzeichen. Wie kommt das da hin? Ich habe gs eigentlich im Einsatz um sicherzustellen, dass die Dokumente alle wirklich A4 sind. Allerdings ist es nicht wirklich hilfreich, dass die von Tesseract eingefügte Textebene damit manipuliert wird. Mir erschließt sich nicht, warum gs hier den Text verändert.
Ein Beispiel:
Text aus der von Tesseract erstellten PDF-Datei, kopiert mit Okular:
Halten Sie sich an einem anderen Ort auf,
Der gleiche Test, nachdem gs das PDF manipuliert hat, wieder kopiert mit Okular:
H a l t e n S i e s i c h a n e i n e m a n d e r e n O r t auf,
Ich dachte zuerst, dass dieser Effekt nur beim kopieren auftritt, leider jedoch beeinträchtigt dies auch die Suche in den Dokumenten und das ganze ist dann natürlich ausgesprochen unpraktisch.
Kennt jemand das Problem oder weiß eine Lösung, außer gs wegzulassen?
Vielen Dank schon mal,
wetTshirt
P.S. Folgende Softwareversionen sind im Einsatz:
XSane 0.999
Scantailor 0.9.11.1
tesseract 3.04.00
gs 9.16
pdfunite 0.33.0