Wir verlassen uns sowohl im geschäftlichen, wie auch im privaten Alltag immer mehr auf Applikationen und Logiken, deren Grundlage Daten sind. Eine gute Datenqualität ist deshalb der entscheidende Faktor, der unser tägliches Arbeiten und Handeln beeinflusst. Warum Datenqualität so wichtig ist, was die Merkmale sind und ein paar Tipps, wie wir optimieren können, haben wir nachfolgend zusammengefasst.
Warum ist Datenqualität so wichtig?
Daten sind die Grundlage für viele Bereiche in der Geschäftswelt. Schlechte Datenqualität hat dementsprechende Auswirkungen. “Garbage In, Garbage Out” – ein Leitsatz der so alt ist, wie die Informatik selbst. Dabei ist das Thema wichtiger denn je, denn wir als Menschen verlassen uns immer mehr auf Automatisierungen, Apps und maschinelle Entscheidungen.

Als prominenteste Bereiche gelten heutzutage sicherlich Anwendungen mit Künstlicher Intelligenz (KI). Die Grundlage für KI sind grosse Mengen an Daten, die benötigt werden, um daraus zu lernen und Muster zu erkennen, die für menschliche Analysen zu aufwändig oder zu komplex sind. Wenn also die Daten, mit denen KI-Systeme trainiert werden, schlechte Qualität haben, dann ist auch das daraus abgeleitet Ergebnis schlecht und entsprechend nicht brauchbar.
Datengetriebene Organisationen nutzen Daten und deren Aufbereitung als zentrales Mittel zu Entscheidungen. Wenn das Management eine Kundenstatistik erhält, bei denen die Zahlen aufgrund von falschen Labels oder fehlenden Kategorien nicht die Wirklichkeit abbilden, werden Fehlentscheidungen getroffen. Da können Applikationen und Reports noch so gut aufgesetzt sein, das Resultat ist nicht besser als die unterliegende Datenqualität.
Es betrifft aber nicht nur aufstrebende Themen wie KI und Data Analytics. Bereits die Qualität des Kundenstamms und dazugehörige Transaktionen hat eine Auswirkung auf das Tagesgeschäft und die Beziehungen zu Kunden. Zum Beispiel beim Thema Service-Qualität: Wenn ein Kunde über die Hotline Unterstützung benötigt, dann ist es für den effizienten Ablauf und die Kundenzufriedenheit essenziell, dass die vorliegenden Daten vollständig, korrekt und aktuell sind.
Was sind Merkmale der Datenqualität?
Datenqualität kann durch unterschiedliche Merkmale definiert werden. Die aus unserer Sicht wichtigsten Dimensionen sind folgende:
Vollständigkeit
Datensätze müssen vollständig sein, das heisst alle nötigen Attribute müssen befüllt sein. Hier beginnt bereits eine Schwierigkeit: Was für das operative Business nötig ist, stimmt nicht zwingend mit anderen Abteilungen oder mit dem Reporting überein. Es kann z.B. sein, dass bei Kundendaten Firma, Kontaktperson, Adresse, PLZ, Ort und Land ausreichen, damit eine Abwicklung und somit ein Geschäft durchgeführt werden kann. Weitere Informationen wie Unternehmensgrösse, Branche, Erstkontakt, Gründungsjahr, Unternehmensform, etc. sind zwar nicht wichtig für das primäre Geschäft, aber umso wichtiger für Marketing, Verkauf oder Management.
Korrektheit
Daten sollten nicht nur vollständig, sondern auch korrekt sein. Die erfassten Werte müssen also die Realität darstellen. Standardwerte, wie z.B. 01.01.1900 als Geburtsdatum sind technisch gültig, aber fachlich nicht korrekt und somit zu vermeiden. Oftmals werden in der Eile bei der Datenangabe Dummy-Werte eingetragen, damit im Prozess weiter gearbeitet werden kann. Bei obligatorischen Feldern werden dann “unmögliche” Werte eingetragen, was dann oft erst in einer Analyse zu Tage kommt.
Aktualität
Diese Merkmal zielt nicht nur auf die Korrektheit ab, sondern auch, ob sie noch aktuell sind. Was in der Vergangenheit mal korrekt war, muss heute nicht mehr zwingend stimmen. Veraltete Daten sind sogar gefährlicher als fehlende Daten, da sie weniger auffallen. Deshalb ist es wichtig, dass die Daten den gegenwärtigen Zustand abbilden und regelmässig aktualisiert werden.
Konsistenz
Die meisten Unternehmen unterhalten Systeme, welche gemeinsame Daten verwenden. Daten zu Produkten z.B. sind im ERP vorhanden, werden wohl aber auch ins CRM, Finanzsystem oder Helpdesk gespiesen. Der Aspekt aus dem Datenmanagement ist hier von zentraler Bedeutung. Denn die Daten müssen miteinander übereinstimmen. Das gleiche Produkt darf in System A nicht anders heissen als in System B. Automatisierte Schnittstellen helfen hier, die Konsistenz zu halten.
Redundanz
Wer kennt es nicht, das leidige Thema der Dubletten? Gerade bei Kundendaten entstehen Dubletten schnell einmal, wenn bei der Eingabe keine Prüfung gemacht wird oder wenn die bereits vorhandenen Daten nicht als gleicher Satz identifiziert werden können (siehe andere Merkmale). Auch bei der Zusammenführung von Systemen (Migrationen) oder automatischem Befüllen von anderen Systemen (Schnittstellen) kommen redundante Daten zustande.
3 Tipps, um das Problem anzupacken
Gerade KMU haben oft keine dedizierte Qualitätsmanager oder Data Governance-Abteilungen. Das heisst aber nicht, dass das Problem nicht angepackt werden kann oder sollte. Hier haben wir drei Tipps, wie die Optimierung der Datenqualität angegangen werden kann, ohne dass gleich ein grosser Admin-Kasten aufgebaut wird – ganz im Sinne von “Think Big, Start Small”.
Verantwortliche definieren
Alles beginnt bei der Verantwortung. Für die einzelnen Datenbereiche oder Domänen sollten Daten-Verantwortliche definiert werden. Denn Datenqualität ist nicht Aufgabe der IT, wie es oft angenommen wird, sondern des Business. Die IT muss die Infrastruktur und Applikationen sicherstellen. Die darin enthaltenen Daten “gehören” jedoch dem Fach. Daten-Verantwortliche sind dann für ihren Bereich zuständig, z.B. für die Kundenadressdaten im CRM.
Housekeeping
Datenbereinigung ist kein One-Time-Job, sondern erfordert regelmässiges “Housekeeping”. Ein einfaches Hilfsmittel sind dabei ein Dashboards oder Reports, welche die fehlerhaften Daten aufzeigen. Das kann z.B. mittels Validierungsskripts umgesetzt werden. Was erstmalig etwas Arbeit bedeutet, hilft anschliessend bei der Überwachung. Z.B. eine Auflistung aller Datensätze, die nicht alle notwendigen Attribute befüllt haben (Vollständigkeit). Oder eine Auflistung aller Datensätze, die mit dem Umsystem nicht übereinstimmen (Konsistenz). Nicht alle Issues können so aufgezeigt werden, aber es reduziert das Offensichtliche und ist oft einfach zu korrigieren. Die Dashboards oder Reports können mit Ampelsystem Rot-Gelb-Grün erweitert werden, sodass ein einfacher Blick reicht, um zu sehen, ob als im “Grünen” ist. Oder je nach System können wöchentliche Notifications versendet werden, sobald die Check-Listen Daten enthalten.
Gründe für schlechte Qualität identifizieren
Eine Bereinigung mittels Housekeeping ist gut, aber die Ursachenbehebung der Qualitätsprobleme ist noch besser. Dafür muss aber zuerst erkannt werden, wie die Datenprobleme zustande kommen. Systemfehler, Schnittstellenprobleme, Fehlerhafte manuelle Eingabe, unzureichende Wartung/Aktualisierung, Prozesslogik, etc. Ein kontinuierliches Monitoring und ein etabliertes Daten-Denken auf allen Ebenen sind dabei wichtige Eckpfeiler.
Fazit
Das Thema Datenqualität als Teil der Data Governance ist etwas, was Unternehmen gezielt mit Verantwortlichen anpacken sollten. Viel hängt davon ab, insbesondere, wenn wir uns immer mehr auf Automatisierung, KI und Apps verlassen möchten. Dabei müssen insbesondere KMU sich nicht mit 100-seitigen Konzepten und komplizierten Prozessen herumschlagen, sondern pragmatisch starten: In kleinen Schritten vorgehen, periodisch bereinigen und kontrollieren und Ursachen somit leichter identifizieren.