Dark Data – Nutzen oder Gefahr?

Als Dark Data wird jener Datenbestand bezeichnet, der zwar aus Applikationen und Systemen generiert, aber nicht ausgewertet oder genutzt wird, ja oftmals gar nicht bekannt ist. Eine Applikation dient einem bestimmten (Geschäfts-) Zweck und jene Daten sind unmittelbar Bestandteil von Reporting und Auswertungen. Diese Daten sind wichtig und dienen dem Management als Grundlage für relevante Geschäfts-Entscheidungen.

 

Heute sammeln viele Applikationen und Systeme nicht nur die Kerndaten des Business. Gerade mit dem Wissen, wie wertvoll Daten sind und den Möglichkeiten, welche Big Data Tools bieten, existiert oft eine «Sammelwut», welche zwar Potential, aber auch Risiken birgt. Das Resultat daraus sind detaillierte Log-Files, Profiling-Daten, Social Media Daten, e-Mails, Meeting-Protokolle, Messwerte aus IoT Devices, usw. Durch ihr schnell wachsendes Volumen und des meist unstrukturierten Formats, ist eine Analyse dieser Daten komplex und aufwändig. Teilweise ist man sich auch nicht bewusst, dass sie überhaupt existieren und so bleiben diese Daten oft im Dunkeln.

Das Potential – Erste Schritte zur Verarbeitung

Oft bietet dieser «unangetastete» Datenbestand Insights, welche indirekt wiederum sehr spannend fürs Business werden können.

 

Log-Daten zum Beispiel sind fixer Teil von Systemen und Applikationen und jeder System-Administrator oder Entwickler ist dankbar, wenn er auf sie zugreifen kann. Durch sie erkennt man Fehler im Betrieb oder in der Entwicklung oder sie dienen der Optimierung der Software. Log-Daten bieten aber auch ein enormes Potenzial abseits von Fehlerbehebung: Sie zeigen auf, wer was wann und wo gemacht hat. Diese Daten sind der perfekte Input, um Ist-Prozesse abzubilden, und zwar wie sie wirklich gelebt worden sind. Darauf basierend können dann Durchlaufzeiten und Prozessvarianten analysiert werden, was wiederum zur Prozessoptimierung genutzt wird (siehe auch unsere Beiträge zu Process Mining).

 

Ein weiteres Beispiel sind Nutzerdaten der Website: Gerade bei Online-Angeboten oder Shops ist es spannend, das Benutzerverhalten zu verfolgen. Dabei ist nicht nur jener Besucher interessant, der einen Kauf betätigt hat, sondern vor allem derjenige, der kurz vorher den Kaufvorgang abgebrochen hat. Das Potenzial dieser Datenbestände ist etwas weiterverbreitet und Web Analytics Tools unterstützen hier bei der Findung von Erkenntnissen.

 

Das Potenzial beschränkt sich aber nicht nur auf Log-Daten oder Audit Trails. Oftmals finden sich interessante Informationen nicht in einer herkömmlichen Datenbank oder Log-Datei: Bilder, Videos, Gescannte Dokumente, Posts, Kommentare, etc. sind heute Teil von digitalen Produkten und Prozessen und können mit modernen Technologien ebenso analysiert werden, wie strukturierte Daten – auch wenn dies in der Praxis aufwändiger ist als mit normalisierten Daten.

Risiko – Die Kehrseite im Auge behalten

Das Thema bietet aber nicht nur Potenzial, sondern birgt auch Risiken.

 

Datenschutz-Richtlinien schreiben vor, dass sensitive Daten (v.a. Personendaten) gelöscht werden müssen, wenn sie für den definierten Zweck nicht mehr genutzt werden. Das betrifft durch die GDPR nicht nur Firmen in der EU, sondern auch alle Unternehmen in der Schweiz, die mit Personen aus der EU Geschäftsbeziehungen halten. Mit der Überarbeitung des Datenschutzgesetztes in der Schweiz kann sich das auf alle Schweizer Unternehmen ausweiten. Dark Data ist durch ihr «Unbekanntheits-Faktor» natürlich eine potenzielle Gefahr diese Richtlinie zu verletzen und für Datenschutzbeauftragte von besonderem Interesse. Nur ein Beispiel: Wenn ich als Mitarbeiter schnell eine Excel-Kopie lokal speichere, damit ich kurz eine Auswertung machen kann, dann sind diese Daten vom Radar des Datenschutzbeauftragen verschwunden.

 

Neben Datenschutz- und Compliance-Themen ergeben sich mit dem Ansammeln von Daten aber ganz herkömmliche IT-Probleme: Daten kosten. Das bezieht sich auf den Speicher, das Backup, Restore-Zeit, Archivierung, Cleanup bei Migrationen, Zeit bei der Analyse nach der Nadel im Heuhaufen – denn nicht alle versteckten Daten führen zu Insights. Die Spreu vom Weizen zu trennen und aufräumen kostet Zeit.

Fazit

Dark Data sollte auf dem Radar eines Unternehmens sein, nicht nur um neue Kenntnisse aus den Daten zu gewinnen, sondern auch aus Gründen des Datenschutzes, der Compliance und der Kosten, damit man die Kontrolle über das Datenuniversum im eigenen Unternehmen behalten kann.

Autor: Andrea Gasser