OCR-Erkennung von Text oder Buchstaben – Eine Definition der optischen Zeichenerkennung
Die Optical Character Recognition, meistens abgekürzt als OCR, ist die mechanische oder elektronische Erkennung und anschließende Umwandlung von (meistens mit einem Scanner erfassten) Abbildern von handschriftlichen, maschinengeschriebenen oder gedruckten Texten in im Computer editierbare Texte.
Wir erkennt OCR einen Text?
Die optische (durch optische Techniken, wie Spiegel und Objektive) und digitale Zeichenerkennung (durch Scanner und Computer-Algorithmen) galten ursprünglich als separate Bereiche. Da nur wenige Anwendungen, die tatsächliche optische Techniken anwenden, auf dem Markt überleben, wurde der Begriff „OCR“ erweitert und schließt mittlerweile die digitale Bildverarbeitung ein. Das bedeutet: Abbilder von Textdokumenten können mit einem Scanner und die Erkennung von im Abbild enthaltenen Buchstaben in elektronische Dokumente umgewandelt und in einem digitalen Archiv gespeichert werden.
OCR-Software
Frühere OCR-Programme erforderten ein Training (die Eingabe von Mustern eines jeden Zeichens), damit sie eine bestimmte Schriftart lesen konnten. Mittlerweile aber ist OCR-Software mit einer hohen Erkennungsgenauigkeit bei den meisten Schriftarten der Standard. Die OCR-Software OmniPage 17 von Nuance kann beispielsweise eine formatierte Ausgabe reproduzieren, die der gescannten Originalseite, einschließlich Bildern, Spalten und anderen Nicht-Text-Komponenten sehr nahe kommt.