Der Data Lakehouse Ansatz – eine moderne Cloud-Datenplattform 

Ein Data Lakehouse Ansatz bietet die Flexibilität und Kosteneffizienz eines Data Lakes mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouses. 

Somit vereint der Ansatz des Data Lakehouse die wichtigsten Funktionalitäten von Data Lakes und Data Warehouses.  

Dadurch können Unternehmen das Single-Repository-Modell von dem Data Warehouse Ansatz für eine einheitliche Speicherung nutzen, ohne die analytische Flexibilität und Skalierbarkeit von Data Lakes zu opfern. Ein Data Lakehouse lässt sich für viele analytische Themen, wie den Aufbau themenbezogener Data Marts, Dashboards oder Machine Learning Anwendungen nutzen. 

  1. Was ist ein Data Lakehouse
  2. Wie sieht eine Data Lakehouse Architektur aus? 
  3. Was sind die Vorteile eines Data Lakehouse? 
  4. Data Warehouse vs. Data Lake vs. Data Lakehouse: Was ist der Unterschied? 
  5. FAQ – Die wichtigsten Fragen rund ums Data Lakehouse

Die Anforderungen an moderne Datenarchitekturen in der Cloud werden immer komplexer und viele Teams sind mit der Datenflut überfordert. Datenteams benötigen eine Datenarchitektur, die Daten kosteneffizient speichert, Skalierbarkeit und schnelle Verarbeitung ermöglicht sowie gleichzeitig eine verlässliche Quelle für Analysen darstellt. 

Genau hier kann die Lakehouse-Architektur helfen. Denn sie bietet die Flexibilität und Kosteneffizienz eines Data Lakes mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouses. 

Schauen wir uns zunächst an, wie der Lakehouse-Ansatz definiert wird. 

Was ist ein Data Lakehouse? 

Ein Data Lakehouse ist eine Datenverwaltungsarchitektur, die die Vorteile eines herkömmlichen Data Warehouses und eines Data Lakes kombiniert. Es versucht, den einfachen Zugriff und die Unterstützung für Geschäftsanalysen, die in Data Warehouses zu finden sind, mit der Flexibilität und den relativ niedrigen Kosten eines Data Lake zu kombinieren. 

Es handelt sich hierbei um eine neue Data Management-Architektur von Databricks. Diese ermöglicht Nutzern das Durchführen von beispielsweise SQL-Analysen, Data Science oder Business-Intelligence-Analysen auf riesigen Datenmengen.  

Der Aufbau des Data Lakehouse

In der folgenden Abbildung sehen Sie den Aufbau des Lakehouse: Jede Datenform kann in den Data Lake geladen werden. Im nächsten Schritt durchlaufen die Daten den ETL-Prozess und landen mit ACID-Compliance in der Governance Layer.

Maschine Learning Bibliotheken wie TensorFlow und Spark MLlib sind in der Lage Dateiformate des Data Lakes (wie Parquet) zu lesen. Um herauszufinden welche Parquet-Dateien Teil einer Tabelle sind und diese dann einfach an eine ML-Bibliothek zu übergeben, ist es ratsam, die Metadatenschicht des Data Lakehouse abzufragen. Das funktioniert ebenfalls über die DataFrame-API, die in den meisten Architekturen enthalten ist. Die DataFrames bieten eine einfache Tabellenabstraktion mit verschiedenen Transformationsoperatoren. Zur Vertiefung können wir das Paper „Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics“ empfehlen.

Dort sind die Daten jederzeit für den Abruf für diverse Analysen (u.a. Machine Learning, BI, Reporting) verfügbar. 

Die beispielhafte Darstellung der Data Lakehouse Architektur beinhaltet die einzelnen Prozessschritte der Speicherung und Verarbeitung von Daten. Dabei werden sowohl Metadata APIs als auch SQL und declaratice DataFrame APIs berücksichtigt.
Beispielhafte Darstellung einer Data Lakehouse Architektur. Der Fokus liegt auf der Metadata-Ebene (z.B. dem Delta Lake bei Databricks).

Die folgenden 5 Merkmale zeichnen den Lakehouse Ansatz aus und sollen Ihnen eine schnelle Übersicht gewähren: 

MerkmalEigenschaft Data Lakehouse
Dateneingabe– Große strukturierte und unstrukturierte Datenmengen 
– ELT fähig 
Datenverwaltung– Kostengünstige skalierbare Objektspeicher wie AWS S3 
Abfrageart– Abfrage muss Ad-Hoc-Analysen unterstützen 
Massive parallele Verarbeitung– Ermöglicht verteilte Ausführung von Abfragen durch mehrere Prozessoren, um Antwort zu beschleunigen 
Indizierung– Architektur umfasst verschiedene statistische Techniken (z.B. Bloom-Filter) 
– Techniken bewirken, dass nicht alle Daten auf einmal gelesen werden, somit werden massive Geschwindigkeitssteigerungen erzielt 
Die fünf typischen Merkmale eines Data Lakehouses.

Wie genau das Data Lakehouse arbeitet, sehen wir uns im folgenden Abschnitt an. 

Wie sieht eine Lakehouse Architektur aus? 

Ein Data Lakehouse bieten in der Regel Unterstützung für die Aufnahme von Daten durch eine Vielzahl von Methoden. Dazu gehören verschiedene APIs, Data-Streaming und die Möglichkeit Daten im Batch zu verarbeiten. Wie das funktioniert, beschreibt die folgende Abbildung.

Die moderne Datenarchitektur des Data Lakehouses ermöglicht sowohl Data Infektion als auch Streaming Data. In mehreren Layern ermöglicht das Lakehouse die qualititätssteigernde Echtzeitverarbeitung der geladenen Daten.
Die moderne Datenarchitektur des Data Lakehouses ermöglicht sowohl Data Injektion als auch Streaming Data. In mehreren Layern ermöglicht das Lakehouse die qualititätssteigernde Echtzeitverarbeitung der geladenen Daten.

In der Abbildung sind die drei Layer des Data Lake abgebildet. Diese dienen der qualitativen Verarbeitung der Daten. In den einzelnen Layern geschieht folgendes: 

  1. Landing Zone (Ingestion Layer): Die Daten landen in ihrer ursprünglichen, rohen Form – ohne dass eine Schemadefinition erforderlich ist – in einer sogenannten Landing Zone (Ingestion Layer). Die Landing Zone bietet in einem Lakehouse eine kostengünstige Speicherebene für strukturierte und unstrukturierte Daten.  
  1. Raw-Zone (Storage Layer): Als nächstes verarbeitet ein ETL-Prozess die Daten und lädt sie in die Raw-Zone (Storage Layer). Die Raw-Zone nimmt die Daten genauso auf, wie sie in der Quelle erscheinen. Von dort aus lassen sich Daten abgleichen, neue Erkenntnisse ableiten oder verloren geglaubte Daten wiederherstellen.  
  1. Curated-Zone (Value Layer): Nachdem die Daten erneut den ETL-Prozess durchlaufen, landen sie in der Curated-Zone (Value Layer). Die Curated-Zone ist die Nutzungsebene und dient der Datenanalyse. Die Daten in dieser Zone verfügen über die höchste Qualität und sind skalierbar. Sie bieten die optimale Grundlage für Machine Learning, Reportings oder weitere Analyseformen.  

Die im Lakehouse gespeicherten Daten legen für die Unternehmen die erforderlichen Governance-, Nutzungs- und Zugriffsregeln fest. Das Ergebnis ist ein Rahmenwerk, das eine einzige Quelle der Wahrheit bietet und Unternehmen in die Lage versetzt, fortschrittliche Analysemöglichkeiten gleichzeitig zu nutzen. 

Die Vorteile des Data Lakehouse haben wir im Laufe des Blogbeitrags bereits teilweise erwähnt. Im nächsten Abschnitt fassen wir sie nochmals zusammen. 

Was sind die Vorteile eines Lakehouse? 

Ein speziell entwickeltes Data Lakehouse kann eine Vielzahl von Datenquellen aufnehmen, ohne dass Kompromisse zwischen kostspieliger Datenspeicherung, Geschwindigkeit und Skalierung eingegangen werden müssen. Es bietet die Flexibilität und Kosteneffizienz eines Data Lake mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouse. Der folgende Fragebogen dient als Übersicht für die entscheidenden Vorteile des Data Lakehouse. 

Das Data Lakehouse vereint die Vorteile des Data Lake und des Data Warehouse. Es bietet die Flexibilität und Kosteneffizienz eines Data Lake mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouse. Der folgende Fragebogen dient als Übersicht für die entscheidenden Vorteile des Data Lakehouse. 
Das Data Lakehouse vereint die Vorteile des Data Lake und des Data Warehouse.

Welche Arten von Daten kann ein Lakehouse speichern und verarbeiten? 

Das Data Lakehouse bietet durch den flexiblen Aufbau des Data Lakes die Möglichkeit alle Daten in Ihrer Rohform aufzunehmen, also strukturiert, semi-strukturiert und unstrukturiert. Dadurch bietet das Lakehouse die Möglichkeit mit großen Metadaten zu arbeiten. 

Was kostet ein Data Lakehouse? 

Die Betriebskosten des Lakehouse sind wie die des Data Lakes gering. Durch die offene Struktur wird kein weiterer Anbieter benötigt, um die Daten zu verwalten.   

Welche Weiterverarbeitungsoptionen unterstützt das Lakehouse? 

Durch die offene Architektur, die Lokalität und die hohe Skalierbarkeit bietet das Data Lakehouse die ideale Grundlage für Analysen. So unterstützt das Lakehouse sowohl ACID-Transaktionen, Indizierung und Schema-Validierung als auch alle Arten von Analysen und Machine Learning. Außerdem hält das Data Lakehouse die Daten durch permanentes Streaming oder regelmäßiges Batch-Processing aktuell.  

Welcher Vorteil ergibt sich für die Mitarbeiter? 

Es handelt sich bei dem Data Lakehouse um die Kombination der Vorteile eines Data Lake und eines Data Warehouse und das an einem Ort. Dadurch können sowohl Data Engineers als auch Data Scientists und Analysten an einem zentralen Ort zusammenarbeiten.

Neben der Vereinheitlichung der Datenteams hat jeder verantwortliche Mitarbeiter die Möglichkeit, auf die Daten in jeglicher Form zuzugreifen. Somit hat auch der Fachbereich einen einfachen Zugriff auf benötigte Informationen. Dies wird durch das vereinfachte Aufbrechen von Datensilos ermöglicht: Eine vollständige und feste Kopie der Daten in den Silos wird an einem zentralen Ort (dem Data Lakehouse) gespeichert. 

Wir bei datasolut sind Full-Stack-Anbieter und beraten Sie gerne hinsichtlich Data Engineering oder Data Science!

Data Warehouse vs. Data Lake vs. Data Lakehouse: Was ist der Unterschied? 

Während Data Lakehouses die Flexibilität und Kosteneffizienz von Data Lakes mit den Abfragefunktionen von Data Warehouses kombinieren, ist es wichtig zu verstehen, wie sich diese Speicherumgebungen unterscheiden. Die folgende Tabelle gewährt einen Überblick:

ItemData WarehouseData LakeData Lakehouse
DatenstrukturStrukturiert (verarbeitet)Strukturiert, semi-strukturiert, unstrukturiert (Roh) Strukturiert, semi-strukturiert, unstrukturiert (Roh) 
Verwendungszweck der DatenBereits festgelegt Noch unbekannt Noch unbekannt 
Benutzer (Data Governance)Business-Anwender, KPI-Reporting  Data Scientist Business-Anwender, KPI-Reporting 
Data Scientist 
(alle relevanten Mitarbeiter) 
PflegeEinfachHochEinfach
FlexibilitätGeringHochHoch
SkalierbarkeitGeringHochHoch
ACID-ComplianceGeringHochHoch
KostenHochGeringGering
Data Warehouse, Data Lake und Data Lakehouse im direkten Vergleich.

Sie möchten noch mehr über das Thema Data Lakehouse erfahren oder sind an der Implementierung eines Lakehouses in Ihrem Unternehmen interessiert? Dann kontaktieren Sie uns gerne! Wir helfen Ihnen bei der Planung und dem Aufbau ihres Lakehouses. 

FAQ – Die wichtigsten Fragen rund ums Data Lakehouse

Was ist ein Data Lakehouse? 

Ein Data Lake ist eine Datenverwaltungsarchitektur, die die Vorteile eines herkömmlichen Data Warehouse und eines Data Lake kombiniert. Es versucht, den einfachen Zugriff und die Unterstützung für Geschäftsanalysen, die in Data Warehouses zu finden sind, mit der Flexibilität und den relativ niedrigen Kosten eines Data Lake zu kombinieren. 

Was sind die Vorteile eines Lakehouse? 

Ein speziell entwickeltes Lakehouse kann eine Vielzahl von Datenquellen aufnehmen, ohne dass Kompromisse zwischen kostspieliger Datenspeicherung, Geschwindigkeit und Skalierung eingegangen werden müssen. Es bietet die Flexibilität und Kosteneffizienz eines 
eines Data Lake mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouse.  

Was sind die Unterschiede zwischen Data Lakehouse und Data Lake? 

Das Lakehouse verbindet die Vorteile des Data Lake mit denen des Data Warehouse. Somit ergänzt das Data Lakehouse den Data Lake um die Fähigkeit, kontextbezogen schnelle Abfragen von Daten zu ermöglichen. 

Kann eine Lakehouse Architektur ein klassischen Data Warehouse ersetzen? 

Eine moderne Lakehouse-Architektur kann eine klassische Data Warehouse Architektur ablösen. Diese ermöglicht die skalierbare Speicherung und Verarbeitung von Daten, dabei bietet sie gleichzeigt die Möglichkeiten von relationalen Datenbanken Transaktionssicherheit, schnelle Abfragegeschwindigkeit und die Nutzung von SQL. 

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Download:

KI Use Cases für Marketing und Vertrieb

Jetzt eintragen und spannende KI-Projektbeispiele aus der Praxis erhalten:

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.