Azure Synapse – Analytics in der Cloud

Mit Azure Synapse bietet Microsoft gleich eine Vielzahl an Funktionen in ihrer Cloud an. In diesem kurzen Beitrag möchten wir Azure Synapse vorstellen und aufzeigen, für wen es sich lohnen kann den Dienst zu nutzen. 

Kurz und knapp: Das ist Azure Synapse

Azure Synapse ist ein Analytics Dienst in der Cloud von Microsoft und ermöglicht es Daten jeglicher Quellen zu integrieren, zu kombinieren und mittels verschiedenen Technologien zu analysieren – und somit Erkenntnisse aus den Daten zu ziehen. 

Azure Synapse
Bild: Azure Synapse Analytics Überblick (Quelle Microsoft)

Für die Integration werden Pipelines verwendet, welche ohne Programmierung aufgesetzt werden können. Anhand von aufeinanderfolgende Aktivitäten werden Daten von diversen Quellen eingebunden und als eine Art Data Flow abgebildet. So können Daten sowohl On Prem, wie auch aus der Cloud bezogen werden. Insbesondere die Anbindung von Streaming Daten (also z.B. Daten von IoT Devices) welche eine hohe Frequenz and Daten-Eingänge haben können mit unterschiedlicher Priorität verarbeitet werden. 

 

Als Datenspeicher können einerseits SQL-Pools verwendet werden, andererseits kann ein Data Lake eingesetzt werden. Der Vorteil von Data Lakes ist, dass dort die Daten in (originalen) Formaten abgelegt werden, welche von diversen Technologien verwendet werden können. Gerade bei sehr grossen Datenmengen (Big Data) können herkömmliche SQL-Technologien an ihre Grenzen stossen. 

 

Zur Analyse von Daten können nicht nur SQL-Technologien eingesetzt werden, sondern auch Open-Source Tools wie Apache Spark. Somit öffnet sich Microsoft gegenüber ihren eigenen Technologien und erlauben mächtige Big Data Kapazitäten und Machine Learning Features, wie sie Spark zu bieten hat. 

Für wen lohnt es sich?

Für einige Szenarien liegen die Vorteile auf der Hand:  

  • Wer grosse Datenmengen zur Analyse verarbeiten muss, sollte sich Azure Synapse genauer anschauen. Durch das «Parallel Processing» sind die Verarbeitungen und Abfragen extrem performant. Wer «Big Data» verarbeitet, bindet schnell mal Streaming Daten an (Telemetrie, IoT, Monitoring, etc.). Dieses Volumen überschreitet herkömmliche Systemanforderungen, wie z.B. jene von Business Applikationen. 
  • Ein grosser Vorteil von Azure Synapse ist der Umgang mit unterschiedlichsten Datenformaten und Quellsystemen. Natürlich können diese auch in einer On Prem Data Warehouse-Lösung angebunden und verarbeitet werden. Aber mit den integrierten Pipeline- und Storage-Funktionen bietet Azure Synapse dies quasi Out-of-the-Box und Programmier-Aufwand entfällt. Das heisst nicht, dass der Aufwand generell wegfällt, aber durch die Datenfluss-ähnlichen Pipeline-Funktionen werden nicht mehr die spezifischen Programmierkenntnissen der verschiedenen Applikationen benötigt. 
  • Wenn bereits einige Applikationen resp. deren Data Storage auf Azure sind, dann macht es Sinn, auch die Analytics nach Azure zu portieren. Dabei kann auch ein analoges Data Warehouse in Azure Synapse aufgebaut werden. 
  • Azure Synapse bietet erweiterte Analytics Funktionen mit Machine Learning Features, welche über klassisches BI hinausgehen. Solche Prozesse sind Ressourcen-intensiv und komplex. Diesen Dienst aus der Cloud zu beziehen macht absolut Sinn und in dem Fall lohnt es sich, die Data Analytics in Azure zu verwenden. 
  • Wie bei allen Cloud-Diensten ist die Skalierung ein grosses Plus. Steigt und sinkt der Bedarf an Ressourcen, so lässt dich das problemloser umsetzen und überwachen. Das ist kosteneffizienter und spart mühsame Beschaffung von IT-Infrastruktur. 

Was ist mit KMUs? Hand aufs Herz: Die meisten kleineren und mittleren Betriebe arbeiten nach wie vor mit ihren lokalen Systemen, vielleicht mit ein paar Applikationen in der Cloud oder mittels SaaS. Von «Big Data» ist man weit entfernt und Analysen werden ad hoc oder mit überschaubarem Reporting oder gar einem kleinen DWH durchgeführt. Lohnt es sich für diese Firmen Azure Synapse zu nutzen?

 

Nun, technisch ist das sicher machbar. Wenn aber keine Cloud-Strategie besteht und die oben genannten Kriterien ( «Big Data», Quellen-Anbindung, etc.) nicht zutreffen, dann gewinnt man wenig mit der Analytics in der Cloud. Wenn die Analytics-Aufgaben die einzigen Komponenten in der Cloud sind, dann ist der Systembruch zu den anderen Umsystemen zu gross, als dass es einen Vorteil bringt. In dem Fall werden die bereits eingesetzten Technologien ausreichen (wobei man wahrscheinlich auch dort immer mal optimieren kann).

 

Sobald eine Cloud-Strategie besteht und man mehr Daten oder gar Machine Learning-Funktionen nutzen möchte, dann kann es sich lohnen, sich mit Azure Synapse auseinanderzusetzen. Insbesondere wenn der Umgang mit Azure bereits bekannt ist, ist ein Azure Synapse-Workspace schnell erstellt, mit dem man z.B. ein Proof of Concept durchführen kann. 

Autor: Andrea Gasser