Blog Details

  • Home
  • Data Lakehouse in a Nutshell

Data Lakehouse in a Nutshell

Viele Unternehmen setzen ein Data Warehouse oder ein Data Lake ein, um ihre Daten für Analytics und Auswertungen zur Verfügung zu stellen. Nicht selten werden jedoch beide Technologien benötigt, da man die jeweiligen Vorteile resp. den Zweck der einzelnen Technologie nutzen möchte. Ein etwas neueres Architektur-Konzept sieht die Integration beider Lösungen vor. Diese hybride Form wird als Data Lakehouse bezeichnet und findet vor allem in der Cloud immer grössere Verwendung.

Von Häusern und Seen

Das Data Warehouse als “Single Source of Truth” für Analyse und Reporting gibt es schon seit den 1980er Jahren und ist bis heute nicht wegzudenken. Hier werden die unterschiedlichen relationalen Source-Systemen (Datenbanken oder Flat-Files) mittels Extract-Transform-Load über eine Staging-Area in die Struktur des Data Warehouse gebracht. Durch die klar definierte Struktur ergibt sich eine hohe Datenqualität, was wiederum das Reporting vereinfacht.

Data Warehouse
Data Warehouse Prinzip

Natürlich hat das Ganze auch seinen Preis: Ein Data Warehouse ist relational und bildet somit nur strukturierte Daten ab. Es ist zeitaufwändig Änderungen oder neue Data Assets ins Warehouse einzubinden. Die Kosten für ein Data Warehouse sind entsprechend hoch.

Auf der anderen Seite gibt es den Data Lake, welcher diesen Nachteilen entgegenwirkt: Ein Data Lake verarbeitet strukturierte und unstrukturierte Daten, die Einbindung ist schnell und der Storage für die Ablage günstig. Letzteres ist vor allem bei grossen Datenmengen (bis hin zu Big Data) ein entscheidender Faktor. In einem früheren Beitrag zu Data Lakes gehen wir genauer auf diese Vorteile ein, betonen aber auch, dass hier das Thema Organisation und Governance zentral ist, um den See nicht in einen Sumpf zu verwandeln. Denn die Vorteile des einen Ansatzes, sind die Nachteile des Anderen.

Data Lake
Data Lake Prinzip

Das Data Lakehouse als hybride Lösung

“Und am Ende der Strasse steht ein Haus am See”… sang Peter Fox vor mehr als 10 Jahren. Und das scheint je länger je mehr das neue Paradigma zu werden. Bereits seit einiger Zeit werden die beiden Ansätze von Data Lake und Data Warehouse nebeneinander verwendet. Das Data Warehouse ist dann einer der Konsumenten aus dem Data Lake.

Das Data Lakehouse geht aber einen Schritt weiter und sollte den Load vom Lake ins Warehouse überflüssig machen.

Data Lakehouse
Data Lakehouse Prinzip

Das Data Lakehouse basiert auf einem Data Lake Storage (somit flexibel für sämtliche Arten von Daten und kostengünstig). Die Daten werden in die erste Zone “Raw” geladen. Relationale Daten werden dann in offenen Formaten (z.B Parquet Files) gespeichert. So muss kein teurer SQL-Pool geführt werden. Das rohe Format kann dann von Konsumenten bereits genutzt oder für das weitere Staging verwendet werden und bis zum “Currated” Status transformiert werden. Das Ziel ist es, die Qualität und Governance aus dem Data Warehouse in einem Layer zur Verfügung zu stellen. So bekommt der Endkonsument einen ähnlichen komfortablen Zugang zu den gewünschten Daten. Dieses Zusammenspiel ist dann auch die Hauptherausforderung bei der Architektur: den optimalen Mix zwischen der flexiblen Welt des Lake und der Qualität des Warehouse zu liefern.

Welche Anwendungen gibt es bereits?

Viele Provider von Data Warehouse oder Data Lake Plattformen bieten eine solche integrierte Lakehouse-Lösung an oder gehen in diese Richtung. Dabei sind insbesondere Cloud-Plattformen Vorreiter, da gerade durch die Skalierung und der Umgang mit grossen Datenmengen bereits viele Komponenten vorhanden sind. Die ersten Provider, welche den Begriff geprägt haben, sind Snowflake und Databricks. In der Cloud gibt es die Plattformen für Google Cloud, AWS oder Azure. Microsoft bietet mit Azure Synapse Analytics auch eine eigene Lösung an, welche die Lakehouse Architektur forcieren. Auch die anderen beiden grossen Cloud Anbieter haben ihre Lösung: Amazon Athena oder Google BigLake.

Das Data Lakehouse-Konzept ist relativ neu und es wird sich wohl noch zeigen, wie sehr es sich durchsetzen kann. Das Data Warehouse ist immerhin schon über 40 Jahre alt. Gerade wegen diesem langanhaltenden Erfolg verwundert es nicht, warum auch beim Lakehouse der grundsätzliche Warehouse-Gedanke beibehalten worden ist.