Named Entity Recognition (NER)
Named Entity Recognition (NER) ist eine Technologie aus dem Bereich der natürlichen Sprachverarbeitung (Natural Language Processing), die dazu verwendet wird, spezifische Informationen in Texten zu identifizieren und zu klassifizieren. Dabei handelt es sich um sogenannte „benannte Entitäten“ wie Personen, Themen, Orte und andere eindeutig identifizierbare Begriffe. Werden die Ergebnisse zusätzlich mit Datenbanken verknüpft, spricht man von Named Entity Linking (NEL). Korrekterweise muss im Fall der Historischen Presse also von NEL gesprochen werden, denn das Portal bindet mit der Wikidata und der Gemeinsamen Normdatei (GND) gleich zwei Datenbanken ein.
Die Grundlage für die Erkennung der Entitäten bildet maschinenlesbarer Text. Im Falle der Historischen Presse musste der maschinenlesbare Text erst durch eine Optical Character Recognition (OCR) erzeugt werden. Für die Entitätenerkennung wird der Text in Tokens zerlegt und normalisiert. Im Anschluss werden lexikalische, syntaktische und semantische Merkmale erfasst, damit am Ende eine Klassifizierung der Entitäten vollzogen werden kann. Die Entitäten werden dann einer automatisierten Plausibilitätsprüfung unterzogen. Hierbei werden die Informationen aus den Metadaten der Zeitungen mit den Datenbanken abgeglichen. Wird beispielsweise eine Person im Korpus gefunden, die erst nach dem Erscheinen der Zeitung geboren wurde, wird dieses Ergebnis als unplausibel markiert und nicht in den Index aufgenommen. Hierbei kann es allerdings auch zu fehlerhaften Entscheidungen kommen. Diese sind in der Regel durch fehlende oder falsche Eintragungen in den Datenbanken begründet. So kann zum Beispiel ein Vertipper eines Geburtsdatums dazu führen, dass die Plausibilitätsprüfung zu einem falschen Ergebnis kommt, womit dann eine Person in den Index aufgenommen wird, die zum Zeitpunkt der Publikation noch nicht geboren war. Eine weitere Fehlerquelle bildet das OCR-Ergebnis. So können beispielsweise Entitäten nicht erkannt werden, wenn in einem Wort ein Buchstabe falsch oder gar nicht erkannt wurde.
Die NER-Ergebnisse wurden stichprobenartig mit dem Ziel geprüft, die offensichtlichsten Fehler zu entfernen. Hierbei wurden keine einzelnen Entitäten ausgeschlossen, sondern Kategorien, die in der Historischen Presse nicht vorkommen können, beispielsweise Softwareprodukte, die fälschlicherweise erkannt wurden. Eine Einzelprüfung konnte aufgrund der Quantität der Entitäten (circa 80.000) nicht geleistet werden.
Über ein Menü lassen sich die Entitäten im Portal filtern, um möglichst genaue Ergebnisse zu erhalten. Mit Hilfe der Filterfunktionen erhält man eine strukturierte Übersicht der Entitäten, wodurch gezielt nach bestimmten Themengebieten gesucht werden kann. Gerade größere Sammlungen können dadurch besser und schneller analysiert werden. Das Portal ermöglicht zudem eine farbliche Markierung der erkannten Entitäten im Text mit einer Vorschau eines Textausschnitts, um der Kontext schnell erfassen zu können.