Ein Data Lakehouse Ansatz bietet die Flexibilität und Kosteneffizienz eines Data Lakes mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouses.
Somit vereint der Ansatz des Data Lakehouse die wichtigsten Funktionalitäten von Data Lakes und Data Warehouses.
Dadurch können Unternehmen das Single-Repository-Modell von dem Data Warehouse Ansatz für eine einheitliche Speicherung nutzen, ohne die analytische Flexibilität und Skalierbarkeit von Data Lakes zu opfern. Ein Data Lakehouse lässt sich für viele analytische Themen, wie den Aufbau themenbezogener Data Marts, Dashboards oder Machine Learning Anwendungen nutzen.
- Was ist ein Data Lakehouse
- Wie sieht eine Data Lakehouse Architektur aus?
- Was sind die Vorteile eines Data Lakehouse?
- Data Warehouse vs. Data Lake vs. Data Lakehouse: Was ist der Unterschied?
- FAQ – Die wichtigsten Fragen rund ums Data Lakehouse
Die Anforderungen an moderne Datenarchitekturen in der Cloud werden immer komplexer und viele Teams sind mit der Datenflut überfordert. Datenteams benötigen eine Datenarchitektur, die Daten kosteneffizient speichert, Skalierbarkeit und schnelle Verarbeitung ermöglicht sowie gleichzeitig eine verlässliche Quelle für Analysen darstellt.
Genau hier kann die Lakehouse-Architektur helfen. Denn sie bietet die Flexibilität und Kosteneffizienz eines Data Lakes mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouses.
Schauen wir uns zunächst an, wie der Lakehouse-Ansatz definiert wird.
Was ist ein Data Lakehouse?
Ein Data Lakehouse ist eine Datenverwaltungsarchitektur, die die Vorteile eines herkömmlichen Data Warehouses und eines Data Lakes kombiniert. Es versucht, den einfachen Zugriff und die Unterstützung für Geschäftsanalysen, die in Data Warehouses zu finden sind, mit der Flexibilität und den relativ niedrigen Kosten eines Data Lake zu kombinieren.
Es handelt sich hierbei um eine neue Data Management-Architektur von Databricks. Diese ermöglicht Nutzern das Durchführen von beispielsweise SQL-Analysen, Data Science oder Business-Intelligence-Analysen auf riesigen Datenmengen.
Der Aufbau des Data Lakehouse
In der folgenden Abbildung sehen Sie den Aufbau des Lakehouse: Jede Datenform kann in den Data Lake geladen werden. Im nächsten Schritt durchlaufen die Daten den ETL-Prozess und landen mit ACID-Compliance in der Governance Layer.
Maschine Learning Bibliotheken wie TensorFlow und Spark MLlib sind in der Lage Dateiformate des Data Lakes (wie Parquet) zu lesen. Um herauszufinden welche Parquet-Dateien Teil einer Tabelle sind und diese dann einfach an eine ML-Bibliothek zu übergeben, ist es ratsam, die Metadatenschicht des Data Lakehouse abzufragen. Das funktioniert ebenfalls über die DataFrame-API, die in den meisten Architekturen enthalten ist. Die DataFrames bieten eine einfache Tabellenabstraktion mit verschiedenen Transformationsoperatoren. Zur Vertiefung können wir das Paper „Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics“ empfehlen.
Dort sind die Daten jederzeit für den Abruf für diverse Analysen (u.a. Machine Learning, BI, Reporting) verfügbar.
Die folgenden 5 Merkmale zeichnen den Lakehouse Ansatz aus und sollen Ihnen eine schnelle Übersicht gewähren:
Merkmal | Eigenschaft Data Lakehouse |
Dateneingabe | – Große strukturierte und unstrukturierte Datenmengen – ELT fähig |
Datenverwaltung | – Kostengünstige skalierbare Objektspeicher wie AWS S3 |
Abfrageart | – Abfrage muss Ad-Hoc-Analysen unterstützen |
Massive parallele Verarbeitung | – Ermöglicht verteilte Ausführung von Abfragen durch mehrere Prozessoren, um Antwort zu beschleunigen |
Indizierung | – Architektur umfasst verschiedene statistische Techniken (z.B. Bloom-Filter) – Techniken bewirken, dass nicht alle Daten auf einmal gelesen werden, somit werden massive Geschwindigkeitssteigerungen erzielt |
Die fünf typischen Merkmale eines Data Lakehouses.
Wie genau das Data Lakehouse arbeitet, sehen wir uns im folgenden Abschnitt an.
Wie sieht eine Lakehouse Architektur aus?
Ein Data Lakehouse bieten in der Regel Unterstützung für die Aufnahme von Daten durch eine Vielzahl von Methoden. Dazu gehören verschiedene APIs, Data-Streaming und die Möglichkeit Daten im Batch zu verarbeiten. Wie das funktioniert, beschreibt die folgende Abbildung.
Die moderne Datenarchitektur des Data Lakehouses ermöglicht sowohl Data Injektion als auch Streaming Data. In mehreren Layern ermöglicht das Lakehouse die qualititätssteigernde Echtzeitverarbeitung der geladenen Daten.
In der Abbildung sind die drei Layer des Data Lake abgebildet. Diese dienen der qualitativen Verarbeitung der Daten. In den einzelnen Layern geschieht folgendes:
- Landing Zone (Ingestion Layer): Die Daten landen in ihrer ursprünglichen, rohen Form – ohne dass eine Schemadefinition erforderlich ist – in einer sogenannten Landing Zone (Ingestion Layer). Die Landing Zone bietet in einem Lakehouse eine kostengünstige Speicherebene für strukturierte und unstrukturierte Daten.
- Raw-Zone (Storage Layer): Als nächstes verarbeitet ein ETL-Prozess die Daten und lädt sie in die Raw-Zone (Storage Layer). Die Raw-Zone nimmt die Daten genauso auf, wie sie in der Quelle erscheinen. Von dort aus lassen sich Daten abgleichen, neue Erkenntnisse ableiten oder verloren geglaubte Daten wiederherstellen.
- Curated-Zone (Value Layer): Nachdem die Daten erneut den ETL-Prozess durchlaufen, landen sie in der Curated-Zone (Value Layer). Die Curated-Zone ist die Nutzungsebene und dient der Datenanalyse. Die Daten in dieser Zone verfügen über die höchste Qualität und sind skalierbar. Sie bieten die optimale Grundlage für Machine Learning, Reportings oder weitere Analyseformen.
Die im Lakehouse gespeicherten Daten legen für die Unternehmen die erforderlichen Governance-, Nutzungs- und Zugriffsregeln fest. Das Ergebnis ist ein Rahmenwerk, das eine einzige Quelle der Wahrheit bietet und Unternehmen in die Lage versetzt, fortschrittliche Analysemöglichkeiten gleichzeitig zu nutzen.
Die Vorteile des Data Lakehouse haben wir im Laufe des Blogbeitrags bereits teilweise erwähnt. Im nächsten Abschnitt fassen wir sie nochmals zusammen.
Was sind die Vorteile eines Lakehouse?
Ein speziell entwickeltes Data Lakehouse kann eine Vielzahl von Datenquellen aufnehmen, ohne dass Kompromisse zwischen kostspieliger Datenspeicherung, Geschwindigkeit und Skalierung eingegangen werden müssen. Es bietet die Flexibilität und Kosteneffizienz eines Data Lake mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouse. Der folgende Fragebogen dient als Übersicht für die entscheidenden Vorteile des Data Lakehouse.
Das Data Lakehouse vereint die Vorteile des Data Lake und des Data Warehouse.
Welche Arten von Daten kann ein Lakehouse speichern und verarbeiten?
Das Data Lakehouse bietet durch den flexiblen Aufbau des Data Lakes die Möglichkeit alle Daten in Ihrer Rohform aufzunehmen, also strukturiert, semi-strukturiert und unstrukturiert. Dadurch bietet das Lakehouse die Möglichkeit mit großen Metadaten zu arbeiten.
Was kostet ein Data Lakehouse?
Die Betriebskosten des Lakehouse sind wie die des Data Lakes gering. Durch die offene Struktur wird kein weiterer Anbieter benötigt, um die Daten zu verwalten.
Welche Weiterverarbeitungsoptionen unterstützt das Lakehouse?
Durch die offene Architektur, die Lokalität und die hohe Skalierbarkeit bietet das Data Lakehouse die ideale Grundlage für Analysen. So unterstützt das Lakehouse sowohl ACID-Transaktionen, Indizierung und Schema-Validierung als auch alle Arten von Analysen und Machine Learning. Außerdem hält das Data Lakehouse die Daten durch permanentes Streaming oder regelmäßiges Batch-Processing aktuell.
Welcher Vorteil ergibt sich für die Mitarbeiter?
Es handelt sich bei dem Data Lakehouse um die Kombination der Vorteile eines Data Lake und eines Data Warehouse und das an einem Ort. Dadurch können sowohl Data Engineers als auch Data Scientists und Analysten an einem zentralen Ort zusammenarbeiten.
Neben der Vereinheitlichung der Datenteams hat jeder verantwortliche Mitarbeiter die Möglichkeit, auf die Daten in jeglicher Form zuzugreifen. Somit hat auch der Fachbereich einen einfachen Zugriff auf benötigte Informationen. Dies wird durch das vereinfachte Aufbrechen von Datensilos ermöglicht: Eine vollständige und feste Kopie der Daten in den Silos wird an einem zentralen Ort (dem Data Lakehouse) gespeichert.
Wir bei datasolut sind Full-Stack-Anbieter und beraten Sie gerne hinsichtlich Data Engineering oder Data Science!
Data Warehouse vs. Data Lake vs. Data Lakehouse: Was ist der Unterschied?
Während Data Lakehouses die Flexibilität und Kosteneffizienz von Data Lakes mit den Abfragefunktionen von Data Warehouses kombinieren, ist es wichtig zu verstehen, wie sich diese Speicherumgebungen unterscheiden. Die folgende Tabelle gewährt einen Überblick:
Item | Data Warehouse | Data Lake | Data Lakehouse |
Datenstruktur | Strukturiert (verarbeitet) | Strukturiert, semi-strukturiert, unstrukturiert (Roh) | Strukturiert, semi-strukturiert, unstrukturiert (Roh) |
Verwendungszweck der Daten | Bereits festgelegt | Noch unbekannt | Noch unbekannt |
Benutzer (Data Governance) | Business-Anwender, KPI-Reporting | Data Scientist | Business-Anwender, KPI-Reporting Data Scientist (alle relevanten Mitarbeiter) |
Pflege | Einfach | Hoch | Einfach |
Flexibilität | Gering | Hoch | Hoch |
Skalierbarkeit | Gering | Hoch | Hoch |
ACID-Compliance | Gering | Hoch | Hoch |
Kosten | Hoch | Gering | Gering |
Data Warehouse, Data Lake und Data Lakehouse im direkten Vergleich.
Sie möchten noch mehr über das Thema Data Lakehouse erfahren oder sind an der Implementierung eines Lakehouses in Ihrem Unternehmen interessiert? Dann kontaktieren Sie uns gerne! Wir helfen Ihnen bei der Planung und dem Aufbau ihres Lakehouses.
FAQ – Die wichtigsten Fragen rund ums Data Lakehouse
Ein Data Lake ist eine Datenverwaltungsarchitektur, die die Vorteile eines herkömmlichen Data Warehouse und eines Data Lake kombiniert. Es versucht, den einfachen Zugriff und die Unterstützung für Geschäftsanalysen, die in Data Warehouses zu finden sind, mit der Flexibilität und den relativ niedrigen Kosten eines Data Lake zu kombinieren.
Ein speziell entwickeltes Lakehouse kann eine Vielzahl von Datenquellen aufnehmen, ohne dass Kompromisse zwischen kostspieliger Datenspeicherung, Geschwindigkeit und Skalierung eingegangen werden müssen. Es bietet die Flexibilität und Kosteneffizienz eines
eines Data Lake mit den kontextbezogenen und schnellen Abfragefunktionen eines Data Warehouse.
Das Lakehouse verbindet die Vorteile des Data Lake mit denen des Data Warehouse. Somit ergänzt das Data Lakehouse den Data Lake um die Fähigkeit, kontextbezogen schnelle Abfragen von Daten zu ermöglichen.
Eine moderne Lakehouse-Architektur kann eine klassische Data Warehouse Architektur ablösen. Diese ermöglicht die skalierbare Speicherung und Verarbeitung von Daten, dabei bietet sie gleichzeigt die Möglichkeiten von relationalen Datenbanken Transaktionssicherheit, schnelle Abfragegeschwindigkeit und die Nutzung von SQL.