ORAYLIS Automation Framework — Mehr Effizienz für moderne Microsoft-Lösungen

Bei modernen Data-Warehouse- und Data-Lakehouse-Umgebungen entwickelt sich die Automatisierung von Lösungsbestandteilen zum Standard. Für uns als Berater im Microsoft-Umfeld ist sie inzwischen Tagesgeschäft. Die Vorteile liegen auf der Hand: Wiederkehrende Aufgabenstellungen bei der Speicherung, Pflege und Erweiterung von Daten lassen sich schnell und effizient abwickeln, wodurch nicht nur lange Entwicklungszeiten und der gefürchtete Anforderungsstau der Vergangenheit angehören. Alle Beteiligten profitieren von einer gleichbleibend hohen Entwicklungsqualität sowie einer einfachen, weil zentralen Wartung.

Aber was ist das Richtige im kaum noch überschaubaren Angebot an Automatisierungswerkzeugen? Im Rahmen unserer aktuellen DWH-Referenzarchitektur auf Basis der Azure Cloud haben wir so einige Tools getestet. Das Resultat: Keines wird unseren Ansprüchen — oder vielmehr: denen unserer Kunden — gerecht. Mal waren sie zu komplex, mal zu unflexibel, oder manchmal auch einfach nur zu teuer. Deshalb haben wir uns von allem das Beste genommen und unsere eigene Lösung aufgesetzt: das ORAYLIS Automation Framework. Im Folgenden möchte ich den Aufbau und Nutzen im Kontext von Microsoft-Lösungen näher erläutern.

Wie DWH Automation funktioniert

Prinzipiell geht es bei „DWH Automation“ darum, wiederkehrende und vorhersehbare Aufgaben durch Metadaten zu beschreiben, wie etwa den Aufbau und die Pflege von Datenmodellen, ETL/ELT-Prozessen oder Schnittstellen — eben jene Tätigkeiten, die in der manuellen DWH-Entwicklung die meiste Zeit beanspruchen. Die Automatisierung erfolgt daraufhin über Instanziierung. Die Metadaten werden also an das Zielsystem übergeben, das diese dann einliest und interpretiert. Alternativ lassen sich die Metadaten auch schon vorab in Code übersetzen, der dann einfach nur noch ausgeführt werden muss.

Egal welcher Weg gewählt wird: Am Ende entsteht ein zentrales Template, das zur Umsetzung einer DWH-Architektur genutzt werden kann. Entsprechend sollte unser Framework einerseits die Best Practices unserer Referenzarchitektur abbilden und sich andererseits auf die individuellen Bedürfnisse einzelner Kunden zuschneiden lassen.

Automatisierte Referenzarchitektur in Azure

Ausgangspunkt für das ORAYLIS Automation Framework bildet eine klassische Layer-Architektur, bei der sämtliche Datenobjekte und Zonen über eine Metadatenschicht beschrieben werden:

ORAYLIS Referenzarchitektur für Modern Data Warehouses / Lakehouses

Dabei werden die Daten zunächst aus ganz unterschiedlichen Quellen in einen Data Lake Gen2 geladen oder gepusht. Parquet-Formate landen als Snapshots direkt in der Raw Zone des Replication Layers. CSV-Fomate werden zunächst in der Drop Zone entsprechend konvertiert.

Danach geht es in den Technology-Layer, einem klassischen Staging-Bereich. Hier werden sämtliche Snapshots in die Struktur integriert, sodass erstmals ein volles Abbild einer jeden Entität entsteht. Im Business-Layer entwickeln wir dann unsere Business-Logik. Er setzt sich aus drei Zonen zusammen:

  • Core Zone: Die Entitäten und Objekte werden in Empfang genommen und zur weiteren Verarbeitung bereitgestellt.
  • Curated Zone: Ein dimensionales Modell wird aufgebaut.
  • Consumer Zone: Das Modell wird in einen Cube oder ein tabulares Modell integriert und damit abfragbar gemacht

Sämtliche Entitäten — sowohl im Technology als auch im Business Layer — sind daraufhin als Delta-Lake-Tabellen abrufbar. So übernimmt der Data Lake Gen2 im Gesamtkonzept also die Rolle des Storages für alle Schichten und Zonen. Währenddessen dienen Azure Synapse Analytics oder alternativ Azure Databricks der Datenverarbeitung.

Kunden zeigen sich begeistert

Wir setzen das ORAYLIS Automation Framework inzwischen als Standard in unseren DWH-Projekten ein und erhalten durchweg positive Feedbacks von Kundenseite. Aufwand und Kosten sind vom Design bis zur Implementierung erheblich gesunken, wobei die Azure Services vollumfänglich unterstützt werden. Ebenso sind Anpassungen schnell gemacht und neue Datenquellen umgehend angebunden. Zudem können wir mit den Metadaten automatisierte Dokumentationen bereitstellen und eine Data Lineage integrieren. Dadurch liefern wir stets Lösungen, die sich höchst effizient, transparent und sicher zu betreiben sind.

Gegenwärtig verbessern wir noch die Nutzeroberfläche. Ziel soll es sein, dass auch Anwender ohne größere Programmierkenntnisse stärker zum Aufbau und dem Betrieb unserer automatisierten Lösungen beitragen können. Wer das Thema weiter verfolgen möchte: Im Frühjahr 2023 werden wir auf GitHub eine Open-Source-Lösung vom ORAYLIS Automation Framework veröffentlichen. Oder melde dich zum Azure Synapse Analytics & SQL Server 2022 @Microsoft Hamburg am 13. Dezember 2022 an. Als Teaser kann unser Video-Beitrag zum Thema auf der Microsoft Ignite 2022 dienen (solange noch dort verfügbar).

If you are interested in more interesting content about the Microsoft Data Platform, then you are welcome to visit our Meetups in Hamburg, Germany!

https://www.meetup.com/de-DE/hamburger-ms-sql-server-usergroup-by-pass-deutschland-e-v/

--

--

Jens Kröhnert
Microsoft Data Platform Community Hamburg

'The Future Has Already Arrived — It’s Just Not Evenly Distributed Yet.' Principal Solution Architect @ORAYLIS GmbH & Microsoft P-TSP