Optical Character Recognition (OCR)
Optical Character Recognition (OCR) ist eine Technologie, die gedruckten oder handgeschriebenen Text in digitaler Form erkennen und in maschinenlesbaren Text umwandeln kann.
Dafür wird das Bild des Textes zunächst in ein binäres Format umgewandelt, wobei die hellen und dunklen Bereiche des Bildes unterschieden werden. Dieser Prozess wird als Binarisierung bezeichnet. Danach werden die einzelnen Zeichen oder Wörter im Bild identifiziert und isoliert. Dies geschieht durch eine Segmentierung, bei der das Bild in kleinere Teile zerlegt wird. Im nächsten Schritt erfolgt dann eine Mustererkennung. Hierbei vergleicht die Software die isolierten Zeichen mit einer Datenbank bekannter Schriftzeichen und Muster. Diese Datenbank enthält Informationen über verschiedene Schriftarten und Handschriften. Die OCR-Software versucht, die besten Übereinstimmungen zu finden und die Zeichen korrekt zu identifizieren. Moderne OCR-Softwares nutzen oft auch maschinelles Lernen und künstliche Intelligenz, um die Genauigkeit der Erkennung zu verbessern. Durch diesen Prozess wird eine Durchsuchbarkeit der Dokumente ermöglicht.
Für die Historische Presse wurden zwei OCR-Softwares für die Erstellung der Volltexte verwendet. Während des Projektzeitrahmens wurde Abbyy FineReader in den Versionen 10 und 12 genutzt. 2024 wurde der gesamte Korpus der Historischen Presse mit Google Vision (stable) (Stand: 18.04.2024) erneut verarbeitet. Das Ziel war hierbei, die Qualität der Volltexte zu verbessern. Zunächst wurden die alten Ergebnisse evaluiert, um die Qualität des Korpus einschätzen zu können. Als Maßstab wurde ein sogenannter Konfidenzwert erhoben. Damit wird die Wahrscheinlichkeit angegeben, dass eine Fünf-Buchstaben-Folge der erkannten Wörter in einem Referenzkorpus wiederzufinden ist. Als Referenzkorpora werden Wörterbücher verschiedener Sprachen herangezogen. Der Konfidenzwert kann von der Wort- auf die Seitenebene hochgerechnet werden, um für jede Seite einen Prozentwert erhalten. In einem weiteren Schritt sind dann für jede Seite die Werte aus beiden OCR-Softwares miteinander verglichen worden und es wurde das jeweils beste Resultat ausgewählt. Die Historische Presse hat nach dieser Überarbeitung eine Gesamtkonfidenz von 93,02%. Die Ergebnisse bilden die Grundlage für die Durchsuchbarkeit der Historischen Presse und zusätzlich auch die Basis der Named Entity Recognition (NER).
Die Technik liefert allerdings trotz der Überarbeitung keine perfekten Ergebnisse. Die Qualität der Ergebnisse hängt stark von der Qualität der Scans und dem Erhaltungszustand der Vorlage ab. Zusätzliche Herausforderungen können durch eine Mischung von Schriftarten und komplizierte Layouts entstehen, wie sie beispielsweise bei Zeitungen zu finden sind.