Springe zum Hauptinhalt

Kleiner Erfahrungsbericht mit Online-OCR-Diensten

Ein paar ha­be ich aus­pro­biert und mei­nen Fa­vo­ri­ten ge­fun­den

/images/2014/ocr.png

heu­te woll­te ich ein PD­F, den ich gescannt hat­te, als Text ha­ben. Mei­ne ei­ge­nen Ver­su­che mit OCR (vor ei­ni­gen Jah­ren) hat­ten un­brauch­ba­re Er­geb­nis­se ge­lie­fer­t. Da der Tex­t, den ich ha­ben woll­te, aus ei­ner Zeit­schrift stammt und da­mit in keins­ter Wei­se ver­trau­lich ist, be­schloss ich, einen On­line Ser­vice zu ver­wen­den.

Hier mei­ne Er­fah­run­gen, un­ter den ers­ten Ein­trä­gen, die die In­ter­net­su­che aus­ge­schmis­sen hat:

  1. Ein "Free on­­li­ne OCR": ver­­a­r­­bei­tet nur die er­s­te Sei­te des PD­F. Das Er­­ge­b­­nis wä­­re aber in­s­­ge­­samt okay.

  2. Noch ein "Free on­­li­ne OCR": ver­­a­r­­bei­tet meh­re­­re Sei­ten, im Er­­ge­b­­nis (R­T­F­-­­­For­­mat) lie­­gen aber al­le Tex­t­­-­­Rah­­men auf ei­­ner Sei­te. Un­­­brauch­­ba­r. Zu­­mal ich meh­re­­re An­läu­­fe ge­­braucht ha­­be, um ein Er­­ge­b­­nis zu be­­kom­­men. Die bes­te Be­­grün­­dung da­­bei wa­r: "Low Image Qua­­li­­ty" – bei 660 dpi ei­­ne ge­wag­te Aus­­sa­­ge.

  3. …ich über­­sprin­­ge ein paa­r, die ich an­­ge­­se­hen, aber nicht mehr ge­tes­tet hat. Bei­­spiels­wei­­se, weil sie auch nur die er­s­te Sei­te des PDF ver­­a­r­­bei­ten.

Wei­ter un­ten in der List bin ich auf den Ser­vice von Ab­by Fi­ne­rea­der ge­sto­ßen. Den hat­te ich im ers­ten Durch­gang über­sprun­gen, weil er ei­ne Re­gis­trie­rung ver­lang­t. Es Er­geb­nis hat mich echt be­ein­druck­t: Der Text scheint kei­ne Recht­schreib­feh­ler zu ent­hal­ten, die Bin­de­stri­che am Zei­len­en­de wer­den so­gar in "wei­che" Trenn­zei­chen um­ge­wan­del­t, das Lay­out ist pas­sa­bel er­hal­ten. Aus­ser­dem kann man vie­le Aus­ga­be­-­For­ma­te wäh­len, un­ter an­de­rem Open­Do­cu­ment-Tex­t. Was will man mehr?

Ein­zi­ger "Ha­ken" – so­weit man das bei ei­nem kos­ten­lo­sen Dienst sa­gen kann –: Man kann nur 10 Sei­ten in 14 Ta­gen kon­ver­tie­ren.

Noch ein Tipp zur Re­gis­trie­rung: Bei mei­nem Ver­such konn­te ich ir­gend­ei­ne E-­Mail­-­Adres­se an­ge­ben. Denn es wird noch nicht ein­mal ei­ne Be­stä­ti­gungs­-­Mail ver­schick­t. Ich ge­lan­ge nach der Re­gis­tie­rung di­rekt zum "Jetzt er­ken­nen"­-­Schrit­t.

Ach, und um es noch­mal aus­drü­ck­lich zu sa­gen: Ver­trau­li­che oder per­sön­li­che Text wür­de ich ei­nem On­li­ne­-­Dienst nicht an­ver­trau­en.

Portrait von Hartmut Goebel

Hartmut Goebel

Diplom-Informatiker, CISSP, CSSLP, ISO 27001 Lead Implementer

Haben Sie noch Fragen?
Anruf oder Mail genügt:
  +49 871 6606-318
  +49 175 29 78 072
  h.goebel@goebel-consult.de