Wie oft haben wir früher in der Schule gedacht: «Wozu lerne ich das überhaupt, das werde ich in meinem Leben nie mehr brauchen»? Gerade bei trockenen, theoretischen, mathematischen Themen erkennt sich wahrscheinlich manch einer wieder. Den «Satz von Bayes» haben alle mal gehabt, welche Statistik und Wahrscheinlichkeitsrechnung belegt haben – und viele haben ihn wieder vergessen. Genau dieser Satz ist Grundlage von sehr wichtigen Algorithmen in Machine Learning: Naive Bayes Classifiers.
Der Satz von Bayes basiert auf der Theorie der bedingten Wahrscheinlichkeit: Wie hoch ist die Wahrscheinlichkeit, dass ein Ereignis eintritt, wenn ein anderes Ereignis bereits eingetreten ist? Dieses Konzept ist die Basis für eine ganze Gruppe von Algorithmen. Diese werden vor allem bei Voraussagen von Klassifikationen verwendet. Sie berechnen die Wahrscheinlichkeiten von möglichen Klassifikationen (Labels), basierend auf bestehenden Daten. Das Label mit der höchsten Wahrscheinlichkeit ist dann die Voraussage.
Das ist ein relativ simples Konzept, verglichen mit anderen Algorithmen. Und darin liegt dann auch der «naive» Teil des Ganzen. Wir gehen nämlich «naiverweise» davon aus, dass sämtliche Daten, die für die Berechnung hinzugezogen werden (sogenannte Features), komplett unabhängig voneinander sind, also nicht korrelieren– davon geht auch der Satz von Bayes aus. Ist das tatsächlich der Fall, so sind Bayes Classifiers sehr schnell und robust. In der realen Welt ist es allerdings so, dass selten unabhängige Datensets vorliegen. In dem Fall sind die Voraussagen von anderen Algorithmen besser geeignet.
Anwendung von Naive Bayes Classifieres findet man vor allem in der Text Classification, zum Beispiel Spam Filtering oder Sentiment Analysis.