Ein Datenkatalog ist ein zentrales Element der Data Governance und fungiert als strukturiertes Verzeichnis aller Datenbestände eines Unternehmens. Das ist quasi ein Produktkatalog, wie wir es aus Läden und Online-Stores kennen, einfach mit Datenprodukten. Wir zeigen in diesem Beitrag, dass ein einfacher Datenkatalog als Einstieg ins Thema Data Governance bereits mit einer Excel-Liste erstellt werden kann.
Der Datenkatalog als Teil der Data Governance
Der Datenkatalog ist ein wesentlicher Bestandteil der Data Governance und somit ein zentrales Mittel auf dem Weg zu einer daten-orientierten Firma (siehe dazu Business Intelligence Governance und Ein Datenkatalog hilft beim Datenschutzgesetz). Beim Thema Governance schreckt man schnell zurück und denkt an viel Papierkrieg, trockene Konzepte und Richtlinien. Gerade KMU mit wenigen Ressourcen für solche Aufgabe scheuen sich, sich dem Thema anzunehmen. Wenn aber Daten als zentrales Asset für die Unternehmensziele verwendet werden, ist ein Datenkatalog unabdingbar. Grössere Datenplattformen bieten integrierte Tools für die Erfassung eines Datenkatalogs. Bei umfangreichen und komplexen Datenbestände empfiehlt es sich, ein solches Tool zu nutzen. Für den Einstieg oder für kleinere Firmen, reicht aber bereits ein Excel-File.
Jede Firma nutzt Daten
Ein Unternehmen mag noch so klein sein, Daten sind ein Bestandteil davon. Wir haben hier ein fiktives Beispiel eines mittelständischen Handelsunternehmens, welches für die Erreichung seiner Unternehmensziele Daten nutzen möchte. Nun sollte ein Datenkatalog erstellt werden. Dazu wird in einem ersten Schritt aufgenommen, welche Informationen in welchen Systemen zu finden sind.
In den meisten Fällen gibt es Schnittstellen zwischen den Systemen. Das CRM zum Beispiel dient als Masterdata-System für Kontakt- und Adressdaten, liefert diese aber auch ins ERP und die Finanzbuchhaltung. Diese Datenherkunft muss dann im Katalog ersichtlich sein.
Data Assets als Startpunkt
Ein Datenkatalog wird in erster Linie für die Konsumenten erstellt. Er sollte also nicht auf einer technischen Flughöhe beginnen, sondern die Datenprodukte in den Mittelpunkt stellen. Zu jedem Datenprodukt werden nun Metadaten erfasst. Diese beinhalten (nicht abschliessend):
- Name des Datenprodukts
- Beschreibung
- Quelle
- Speicherort
- Verantwortlichkeit (einzelne Person oder Abteilung)
- Aktualisierungsintervall
- Datenformat
- Grösse/Umfang
- Datenqualität
- Zugriffsberechtigte Gruppen und wie man Zugriff beantragen kann
- Herkunft / Lineage (beinhaltet das Produkt z.B. teilweise Daten aus einem anderen System)
- Vertraulichkeitsstufe
Wie viele Details und Spalten zu den einzelnen Produkten erfasst werden, ist individuell. Der Zweck sollte sein, dass Konsumenten (z.B. für die Erstellung von Reports) erkennen, welche Informationen in welchem System zu finden sind und wer die verantwortliche Person oder Gruppe ist.
Wenn zum Beispiel ein Data Warehouse verwendet wird, aus dem Daten konsumiert werden sollen, dann macht es Sinn, diese Quelle ebenfalls aufzulisten mit dem entsprechenden Hinweis der Datenherkunft (Lineage). Hier helfen professionelle Kataloge, die auch eine grafische Darstellung liefern können.
Details zu den Datenprodukten
Wenn man nun sehen möchte, welche Felder genau in einem Datenprodukt enthalten sind, können wir eine Stufe tiefer gehen und Details zu den einzelnen Datenprodukten liefern.
Hier werden nun alle Felder des Datenprodukts (oben z.B. Kundendaten) aufgeführt und mit weiteren Metadaten versehen. Nun kann es auch etwas technischer werden, was aber wiederum bei Themen der Datenqualität wichtig ist.
Vom Katalog zum Dictionary zum Glossar
Während ein Datenkatalog ein umfassendes Verzeichnis aller Datenbestände eines Unternehmens darstellt, liegen die technischen Details im Data Dictionary. Technische Informationen zu Felder, Formeln, Berechnungen, Datentypen, etc. sind Teil des Dictionary. Wenn wir nochmals das Beispiel von oben anschauen, dann gehen wir mit der Detail-Ebene im Datenkatalog bereits in Richtung Dictionary. Der Übergang ist also fliessend, je nach dem, auf welcher Ebene man welche Details erfasst.
Grundsätzlich ist der Katalog eher auf das Business ausgerichtet und sollte auch Informationen zum Business-Kontext aufweisen. Idealerweise verbindet man den Datenkatalog auch mit einem Glossar, den man innerhalb der Firma nutzt und Fachbegriffe definiert, um ein gemeinsames Verständnis zu gewinnen. Wenn man z.B. von “Umsatz” spricht, dann sollten alle die gleiche Definition davon haben und wissen, woher die Zahl kommt. Oder wenn der Sales Manager von Zahlen in der Sales-Pipeline spricht, dann sollte klar sein, wie diese definiert ist und ab wann etwas als Verkaufschance in der Pipeline gezählt wird.
Fazit
Die Vorteile von Data Governance Tools liegen auf der Hand: Sie verbinden die verschiedenen Ebenen von Datenmanagement, Katalog, Dictionary, Glossar, etc. und bieten interaktiv und grafische Benutzerfunktionen. Ab einer bestimmten Grösse und Komplexität kommt man schwer um ein solches Tool herum. Wenn aber in einer Firma noch kein Katalog vorhanden ist oder die Grösse insbesondere bei KMU überschaubar bleibt, dann ist der Einstieg mit einer Excel-Übersicht praktisch und liefert die Grundlage für eine saubere Erfassung der Data Assets.