Blog Details

  • Home
  • OneLake: Das OneDrive für Daten

OneLake: Das OneDrive für Daten

Zusammen mit Microsoft Fabric wurde der OneLake eingeführt. Damit erscheint ein weiterer “Lake” im Microsoft Data-Analytics Jargon, nach DataLake und LakeHouse. Wie das OneDrive wird auch der OneLake automatisch für jeden Fabric-Mandaten bereitgestellt. Der OneLake stellt aber nicht alles in Frage, was Kunden bisher in der Microsoft-Cloud aufgesetzt haben. Vielmehr werden mit dem OneLake Daten Mitarbeitenden einfacher zur Verfügung gestellt, ohne dass in Azure für jedes neue Datawarehouse oder LakeHouse umfangreiche Konfigurationen aufgesetzt werden müssen, damit auch eine Zusammenarbeit mit Daten aus anderen Abteilungen reibungslos funktioniert.

Das Panorama über den OneLake

OneLake stellt einen einzigen, logischen Data Lake für die gesamte Organisation bereit. Ein Kernziel von OneLake zielt darauf ab, nur eine einzige Kopie der Daten zu speichern, auch wenn diese mit unterschiedlichen Engines wie T-SQL, Spark, Python, KQL oder via APIs und SDKs abgefragt werden sollen. Damit bietet OneLake viele Vorteile für Kunden, die ihre Daten effizient und sicher analysieren wollen. Da die Daten losgelöst vom Analytics-Verwendungszweck nur einmal abgelegt werden, reduziert sich die technische Komplexität, die Datenqualität und -Verfügbarkeit wird verbessert und auch die Governance und Sicherheit kann besser überwacht werden.

OneLake mit Workspaces-Organisation

OneLake nutzt das Konzept des Mandanten, um eine natürliche Governance- und Compliancegrenze für die Daten zu schaffen. Mittels verschiedenen Workspaces kann der Zugriff auf die Daten organisiert werden. Auf die Daten werden über Datenelemente wie Lakehouses oder Warehouses zugegriffen, die maßgeschneiderte Benutzeroberflächen für verschiedene Personen bieten.

Eintauchen in den OneLake

OneLake ist offen auf jeder Ebene. OneLake basiert auf Azure Data Lake Storage (ADLS) Gen2 und kann jede Art von Datei, strukturiert oder unstrukturiert, unterstützen. Alle Fabric-Datenelemente speichern ihre Daten automatisch in OneLake im Delta Parquet-Format, das eine hohe Leistung und Zuverlässigkeit gewährleistet. OneLake unterstützt auch die gleichen ADLS Gen2 APIs und SDKs, um mit bestehenden ADLS Gen2-Anwendungen kompatibel zu sein.

OneLake stellt Daten losgelöst von der Abfragesprache bereit

Die Daten selbst werden im Delta Parquet-Format gespeichert, das eine hohe Leistung, Zuverlässigkeit und Konsistenz gewährleistet. Die Daten können auch mit verschiedenen Analyse-Engines wie Spark, SQL oder Python verarbeitet werden.

Sollte eine Organisation bereits DataLakes auf Basis von ADLS oder Amazon S3 eingerichtet haben, müssen diese aber nun nicht migriert werden. Mittels Shortcuts/Verknüpfungen können die bestehenden DataLakes im OneLake verfügbar gemacht werden. So können bestehende Setups bestehen bleiben und trotzdem von allen Vorteilen des OneLakes profitieren. Wenn mit dem OneLake gearbeitet wird, macht es keinen Unterschied, ob die Daten im OneLake selbst aufgebaut wurden, oder in einem anderen ADLS oder Amazon S3 DataLake liegen.

Mittels Shortcuts lassen sich auch Verknüpfungen innerhalb des OneLakes bereitstellen, so dass verschiedene Workspaces auf die gleichen Warehouses oder Lakehouses einer Organisation zugreifen können. Die Berechtigungen werden auch mittels Shortcuts immer berücksichtigt. Das Konzept von Shortcuts stärkt somit den Wert des OneLakes entscheidend. (Mehr Infos zu Shortcuts)

Der lokale Zugang zum OneLake

Mit dem OneLake wird auch ein Client bereitgestellt, der den Zugang zu jeglichen Daten ermöglicht. Der OneLake-Datei-Explorer integriert den OneLake in den Windows-Datei-Explorer. Damit werden analog dem OneDrive-Client jegliche OneLake-Elemente “synchronisiert”. Dabei werden nicht terabyte-weise alle OneLake Daten auf die lokale Festplatte gespeichert, sondern wie vom OneDrive-Client bekannt werden Platzhalter erstellt, welcher erst beim lokalen Öffnen heruntergeladen werden.

Der OneLake Windows-Explorer-Client

Damit lassen sich einfach weitere Dateien in den OneLake stellen, oder vorhandene Dateien (CSV, JSON,…) bearbeiten. Der OneLake-Client synchronisiert die Änderungen dann zurück in den OneLake. Hierbei gibt es (aktuell noch) Einschränkungen, was Microsoft-Office Dateien (xlsx, pptx, docx) angeht. (Mehr Infos zum OneLake Client)

Mit Power BI auf dem OneLake: Direct Lake

Natürlich sollen die Daten aus der Fabric/OneLake auch mit Power BI analysiert werden können. Hierfür wird Power BI um ein neues Verbindungs-Setup ergänzt: Bisher gab es die Möglichkeit Daten in Power BI zu importieren. Alternativ dazu konnten via Direct Query Datenquellen live abgefragt werden. Die Daten verbleiben dabei in der Quelle und Power BI fragt diese jeweils ab. In einem Bericht kann man pro Quelle individuell entscheiden, welche dieser beiden Datenkonnektivitätsmodi man verwenden will. Neu kommt nun Direct Lake als dritte Option dazu.

Drei Verbindungsoptionen in PowerBI; Import, DirectQuery, DirectLake

Direct Lake basiert auf dem direkten Laden von Dateien im Parquet-Format aus einem Data Lake ohne die Notwendigkeit, einen Lakehouse-Endpunkt abfragen und ohne Daten in ein Power BI-Dataset importieren oder duplizieren zu müssen. Dennoch: Wenn mittels Direct Lake ein Zugriff auf den OneLake eingerichtet wird, können keine Nicht-OneLake-Quellen dem Bericht mehr hinzugefügt werden.

OneLake ist das OneDrive für Daten

Mit OneLake hat Microsoft eine Plattform bereitgestellt, damit die oftmals zerstreuten Datenablagen nun zentral zusammengeführt werden können. Die Analogie OneLake als OneDrive für Daten zu verstehe, liegt daher wirklich nahe. Anstelle wie bisher im Azure-Portal individuelle Data Lakes einzurichten erlaubt die Fabric-Plattform nun ein übersichtliches Setup. Das erleichtert nicht nur die Übersicht für Datenanalysten, sondern stellt auch eine Vereinfachung der Konfiguration, der Compliance und der Governance dar.

Noch ist die Plattform in der Preview-Phase, aber ein Blick lohnt sich definitiv. bestehende Workspaces lassen sich in OneLake-Workspaces umwandeln, womit eine 60-tägie Trial startet. Genügend Zeit, um sich mit den Vorteilen des OneLakes besser vertraut zu machen. Sollten Sie Fragen vor oder während der Testphase haben, freuen wir uns auf Ihre Kontaktaufnahme.