Auf der Suche nach Ausreissern

Es gibt viele Ansätze von «Anomaly Detection», von einfacher Statistik bis Machine Learning Algorithmen. Was sind Ausreisser, wie werden sie erkannt und wann macht es Sinn, sich auf die Suche nach ihnen zu machen?

Was bedeutet «Anomaly Detection»?

«Anomaly Detection» ist die Erkennung von Ausreisser in Datensets. Das heisst, wenn ein oder mehrere Datenwerte aus dem Rahmen springen und nicht einem erwarteten oder herkömmlichen Muster entsprechen, dann spricht man von einer Anomalie. 

Dieses Beispiel zeigt ein paar wenige Zeitpunkte über das Jahr verteilt, an denen es zu Werten kommt, die nicht dem normalen oder erwarteten Verlauf entsprechen. Das sind insbesondere die Peaks ins Negative, als trotz Umsatz ein Verlust gezeichnet wird. 

Warum Ausreisser wichtig sind

Oftmals sind Ausreisser logisch erklärbar: Ein verlorener Grossauftrag führt zu einer Lücke, ein trüber Verkaufssonntag fördert den Umsatz in einem Einkaufszentrum oder die Einführung eines neuen Produkts hat unvorhergesehenen Erfolg oder Misserfolg. Es ist also wichtig, Ausreisser zu erklären, damit Massnahmen getroffen werden können, damit solche (falls negativ behaftet) nicht mehr auftreten. In machen Bereichen ist es aber umso wichtiger Ausreisser zu erkennen, um weiteren Schäden vorzubeugen.

Vorbeugung von Betrug oder Missbrauch

Ein häufiger Anwendungsfall für das Erkennen von Anomalien ist die so genannte «Fraud Detection». Hier geht es insbesondere darum, Risiken zu erkennen, welche zu Missbrauch, Betrug oder Wertverluste führen können. Anomalien in den unterliegenden Daten können Hinweise sein, dass es sich um ein erhöhtes Risiko handelt.

Früherkennungssystem im Betrieb

In der Industrie sind Maschinen und Komponenten auf Automatisierungen angewiesen. Kontrollen der Maschinen laufen über ein Monitoring, welches Alarm schlägt, wenn es zu Abweichungen kommt. Viele Implementierungen von solchen Überwachungssystemen basieren auf Schwellwerten, welche definiert werden können. Wird ein Schwellwert über- oder unterschritten, so löst das einen Alert aus.

 

Mit «Anomaly Detection» als Machine Learning Disziplin gibt es die Möglichkeit, dass solche Schwellwerte nicht definiert werden müssen. Das Datenset liefert die Zusammenhänge und Korrelationen gleich selbst, sodass auch unbekannte Faktoren als Überwachungskriterium dienen können. Das ist insbesondere dann interessant, wenn ein Datenset viele Features (Attribute) enthält oder besonders komplex ist. Hier kann die Masse an Daten Insights liefern, die dem Menschen unter Umständen nicht bekannt sind.

Umsetzung mit Azure ML Studio

Azure Machine Learning (ML) Studio bietet für «Anomaly Detection» zwei verschiedene Algorithmen an:

  • One-Class Support Vector Model: Definiert eine “Normal”-Klasse und diese wird als Referenz bei künftigen Abfragen verwendet.
  • PCA-Based Anomaly Detection: Analysiert die verschiedenen Features untereinander, erkennt Korrelationen und definiert die Haupt-Komponenten (Principal Components). Diese werden bei Abfragen als Referenz verwendet.

Im Gegensatz zu Supervised Machine Learning nutzt die «Anomaly Detection» keine klassifizierten Daten. Die Muster zur Anomalie werden innerhalb der Daten gesucht. Der Vorteil bei beiden Methoden ist, dass das Datenset unausgeglichen sein darf. In der Realität enthalten die Datensets nur wenige Ausreisser und viel mehr Norm-Werte. Dieser Umstand führt bei klassischem Supervised Machine Learning oft zu Problemen, da bei einem Training von einem ausgeglichenen Datenset ausgegangen wird, um präzise Voraussagen treffen zu können. Bei «Anomaly Detection» geht es aber genau um die Ausnahmen und die können nur erkannt werden, wenn der Norm-Wert definiert und bekannt ist.

Es muss nicht zwingend Machine Learning sein

Gerade bei grossen Datensets mit vielen Features und Korrelationen können sich Machine Learning Funktionen bewähren. Wenn aber nur wenige Merkmale analysiert werden und dem Analysten die Daten zudem bekannt sind, dann reichen oftmals einfache Visuals wie das Line Chart im Beispiel oben, oder ein Scatterplot. Visualisierung ist eine ideale Methode, um Ausreisser schnell und einfach zu erkennen.

 

Haben Sie Ihre Ausreisser im Griff? Kontaktieren Sie uns unverbindlich, wenn Sie Ihre Daten für «Anomaly Detection» nutzen möchten. Zum Kontaktformular