Named Entity Recognition

Das automatische Erkennen von Objekten in einem Text in natürlicher Sprache ist immer wieder ein Thema im Bereich von Machine Learning. Um was es sich bei «Named Entity Recognition» handelt und was mögliche Anwendungsbereiche sind, lesen Sie hier.

Automatische Textverarbeitung

Die Verarbeitung von natürlicher Sprache (Natural Language Processing, kurz NLP) ist eine der wichtigsten Aufgaben in Anwendungen mit künstlicher Intelligenz. Umso wichtiger wird die Disziplin in der heutigen Welt, in der der Anteil unstrukturierter Daten bei weitem grösser ist als jener der strukturierten. Deshalb versuchen Methoden in der Sprachverarbeitung die einzelnen Texte nicht nur statistisch abzubilden und auszuwerten, sondern auch zu verstehen. Dabei sind der Kontext und die Stellung im Satz relevant, um zu erkennen, was das einzelne Wort bedeutet.

«Named Entity Recognition» (NER) ist eine Unterdisziplin der natürlichen Sprachverarbeitung und versucht Entitäten innerhalb eines Texts zu erkennen. Entitäten sind Objekte aus der realen Welt wie Orte, Firmen, Personen, etc., die eindeutig benannt werden können.

Was bringt Named Entity Recognition?

Wenn wir als Menschen Texte lesen, dann können wir problemlos Objekte identifizieren und eine Zuordnung machen. Die Maschine kann uns in dieser Fähigkeit nicht das Wasser reichen. Was ist aber, wenn ich nun 100 Dokumente lesen muss, weil ich anhand von Objekten herausfinden möchte, ob ein Dokument für meinen Zweck relevant ist oder nicht? Hier kommt nun die Maschine ins Spiel, denn eines hat sie mir voraus: Sie ist viel effizienter und «liest» die 100 Dokumente während ich mir kurz einen Kaffee holen gehe.

«Named Entity Recognition» ist also dann sinnvoll, wenn eine grosse Menge an Daten vorliegt oder immer wieder Texte zwecks Objekt-Identifizierung standardmässig verarbeitet werden müssen.

Drei Anwendungsbeispiele

Diese Art der Informationsgewinnung kann in den unterschiedlichsten Fällen angewandt werden. Hier sind drei Beispiele.

Relevante Beiträge finden

Die Flut an News-Artikel ist riesig, sowohl in sozialen als auch in traditionellen Medien. Teilweise sind Artikel zwar getagged, aber oftmals ergibt sich erst im Kontext des Textes, um was es sich genau handelt. Hier ist ein Beispiel eines aktuellen News Artikels von BBC, bei der es um eine App von Apple geht, welche diese im Zusammenhang mit den Protesten in Hong Kong aus seinem Sortiment entfernt hat. Durch die Machine Learning Komponente konnten sämtliche relevanten Entitäten aus dem Text erkannt werden und falls nötig in einer weiteren Verarbeitung herausgefiltert werden.

Somit können Artikel gezielt gefiltert und vorsortiert werden und die Zeit für das Lesen von nicht relevanten Dokumenten kann anderweitig eingesetzt werden.

Automatische Zuweisung beim Posteingang

Bekommen Sie täglich mehrere Mails oder Dokumente und müssen diese kategorisieren und ablegen? Denken Sie manchmal auch, dass der richtige Klient oder das richtige Produkt automatisch erkannt werden sollte und so der Prozess beschleunigt werden kann? Wir hatten kürzlich einen Artikel zur Dokument-Klassifikation, bei der es darum geht, die Art des Dokuments zu erkennen und automatisch zuzuordnen. Diese Erkennung kann mit «Named Entity Recognition» erweitert werden, sodass zum Beispiel auch interne Produktnamen erkannt werden können. Denn eine solche Entitäts-Erkennung funktioniert nicht nur auf generell bekannten Entitäten wie Orte oder Zahlen, sondern kann auch auf interne Bezeichnungen trainiert werden. So können die erkannten Entitäten internen Katalogen zugeordnet werden und ein manuelles Kategorisieren entfällt. Dabei spielt es keine Rolle, ob es sich um Texte aus Finanzen, Medizin, Rechtsdokumenten oder etwas anderem handelt.

Verbesserung des Support-Prozesses

Der Support-Prozess war bereits Thema in einem früheren Artikel, bei dem es darum geht, möglichst viele Daten für Support-Tickets zu erfassen, damit diese ausgewertet und Prozesse verbessert werden können. Eine Möglichkeit diese Erfassung zu vereinfachen ist die automatische Zuordnung von Personen, Produkte, Dienstleistungen, Systeme, etc., welche aus simplem Mail-Text heraus möglich ist. Als zusätzliche Quelle können auch Kundenbewertungen zum Beispiel aus Twitter-Kommentare oder Online-Bewertungen heraus erkannt und erfasst werden. Das hilft dann nicht nur dem direkten Support-Prozess, sondern dient auch präventiv der Kundenzufriedenheit, wenn solches Feedback verarbeitet wird.

Wie man sieht ist der Einsatz solcher Entitäts-Erkennung vielfältig und funktioniert in der Cloud genauso wie on Premise. Erkennen Sie Potential von solcher Unterstützung in Ihrem Unternehmen oder haben Sie Fragen zu einer anderen Anwendungs-Idee in Ihrem Umfeld? Dann freuen wir uns auf Ihre Kontaktaufnahme.