der Versuch einer Suchmaschine OCR beizubringen…



Im Moment entwickeln wir wieder an unserer Suchmaschine “TFSNA2” weiter: Und so kam es das ich mich einmal mit den zur Verfügung stehenden Opensource OCR Programmen/Bibliotheken beschäftigt habe. Vorweg das Ergebniss: ein Trauerspiel.


Das einzige Projekt das ich gefunden habe, welches noch nicht eingestellt worden ist, bzw. überhaupt etwas vorzuweisen hat ist JOCR/GOCR.



“GOCR is an OCR (Optical Character Recognition) program, developed under the GNU Public License. It converts scanned images of text back to text files. Joerg Schulenburg started the program, and now leads a team of developers.
GOCR can be used with different front-ends, which makes it very easy to port to different OSes and architectures. It can open many different image formats, and its quality have been improving in a daily basis.”


Um GOCR zu testen hab ich einfach mal ein “repräsentatives” Dokument aus der akuellen Suchmaschinen-Datenbank ausgewählt, ein eingescannter Vorlesungsskript bzw. die Quellenliste davon.


Aber Bilder sagen mehr als tausend Worte. GOCR hat über den -v Parameter die Möglichkeit diverse Informationen über den OCR-Vorgang auszugeben… unter anderem werden auch Bilder ausgegeben welche den OCR-Vorgang etwas veranschaulichen sollen:



Das ist das Ausgangsmaterial…ein Ausschnitt davon…



ein “verbose”-Bild von 3




Das nicht wirklich rühmliche Ergebniss


Immerhin ist beim Ergebniss eine entfernte Verwandtschaft zum Ausgangsmaterial festzustellen. Natürlich habe ich nicht damit gerechnet das solche Dinge wie Umlaute funktioniert… aber ich will mal nicht zuviel meckern: Das ganze ist schon recht beeindruckend und ich hätte nicht damit gerechnet das da überhaupt irgendwas herauskommt.


Jedenfalls ist das ganze nicht für unsere Zwecke zu gebrauchen. Nun muss evaluiert werden welche kommerzielle Lösungen brauchbar integriert werden können… momentan schauen wir mal bei ScanSoft Omnipage … zumindest gibts dort gegen klingende Münze auch ein SDK…


Quelle 1: http://jocr.sourceforge.net/index.html
Quelle 2: http://www.tfsna.de

Comments are closed.