Data Warehouse vs. Data Lake: Gemeinsamkeiten und Unterschiede

Was unterscheidet eigentlich ein Data Warehouse von einem Data Lake? In diesem Beitrag soll es ausschließlich um die Beantwortung dieser Frage gehen. Beide Konzepte stellen Speichermöglichkeiten für die diversen Daten eines Unternehmens dar, sind aber von Grund auf verschieden. 

Unter anderem möchten wir hier herausfinden, was Gemeinsamkeiten und Unterschiede von Data Warehouse und Data Lake sind und welches Repository besser zu Ihrem Unternehmen passt. Inhaltlich gehen wir zunächst nochmal kurz auf die jeweiligen Konzepte ein.

Inhaltsverzeichnis:

Was ist ein Data Warehouse?

Ein Data Warehouse (DWH) ist ein zentraler Punkt für die Speicherung unternehmensrelevanter, strukturierter Daten. Diese Daten werden vor der Speicherung in eine einheitliche, strukturierte Form gebracht. Aufgrund der Struktur der Daten im Data Warehouse ist das DWH eine solide Grundlage für die meisten Unternehmen.

Auf Basis der im DWH liegenden Daten lassen sich viele Analysen für unternehmerische Fragestellungen bilden. Wofür man die Daten anschließend verwenden möchte, sollte bereits vor der Übernahme ins DWH geklärt werden – nur so können wir die Daten entsprechend formatieren.

Ein Data Warehouse ist in der Lage größere Mengen an Daten zu speichern, doch mit der Datenflut aus dem WEB sind diese Systeme meist überfordert.

Das Data Warehouse: Der Vorgang von der Datenaufnahme, zum ETL-Prozess, zum Data Warehouse bis zu den weiteren Analysemöglichkeiten.
Vereinfachte Darstellung der Funktionsweise eines Data Warehouse.

Sie möchten mehr über die Funktionsweise und den Nutzen eines Data Warehouse erfahren? Dann sind Sie bei unserem Beitrag „Data Warehouse“ genau richtig.

Was ist ein Data Lake?

Data Lakes sind ebenfalls Konzepte zur Speicherung von unternehmensspezifischen Daten. Die Daten müssen hier allerdings nicht in eine spezielle Form gewandelt werden. Sie können in ihrer Rohform (unstrukturiert, semi-strukturiert, strukturiert) in einen Data Lake übernommen werden.

Die Skalierbarkeit, welche sich aus der Größe der Daten und Formate ergibt, dient als Basis für moderne Datenlandschaften und analytische Infrastrukturen für Machine Learning Prozessen

Der Data Lake: Die vereinfachte Darstellung des Prozesses der Speicherung von unstrukturierte, semi-strukturierten und strukturierten Daten.
Vereinfachte Darstellung der Funktionsweise eines Data Lakes.

Für das Konzept Data Lake haben wir ebenfalls einen umfassenden Beitrag verfasst, den Sie sich hier anschauen können.

Data Lake vs. Data Warehouse: Was sind die entscheidenden Unterschiede?

Die beiden Speicherressourcen unterscheiden sich in vielen Punkten und haben eigentlich nur die Gemeinsamkeit, dass sie dem Speichern von Daten dienen. 

Funktionsweise des Data Warehouse und Data Lake im direkten Vergleich zueinander.
Data Warehouse vs. Data Lake.

Sowohl der Aufbau als auch die Funktionsweise und der Verwendungszweck unterscheiden sich beim Data Warehouse und Data Lake immens. Sehen wir uns die einzelnen Unterschiede übersichtlich in einer Tabelle an. Anschließend an die Tabelle folgt die genauere Erklärung der einzelnen Items. 

ItemData WarehouseData Lake
DatenstrukturStrukturiert (verarbeitet)Strukturiert, semi-strukturiert, unstrukturiert (Roh)
Verwendungszweck der DatenBereits festgelegtNoch unbekannt
BenutzerBusiness-Anwender, KPI-ReportingData Scientist
Flexibilität für neue DatenquellenGeringHoch
Pflegeeinfachhoch
Größe der DatenMittelGroß
SkalierbarkeitGeringHoch
Data Warehouse und Data Lake im direkten Vergleich.

Sehen wir uns die einzelnen Items zur Gegenüberstellung genauer an:

  1. Datenstruktur: Der wohl größte Unterschied der beiden Datenspeicher findet sich in der Aufbewahrung der Daten – genauer – in der Struktur, in welcher die Daten gespeichert werden. Während Data Lakes Daten in ihrer Rohform aufnehmen und so einen Pool aus verschiedenen Datenstrukturen bilden, nimmt ein Data Warehouse nur bereits gefilterte und strukturierte Daten an. 
  2. Verwendungszweck der Daten: Ein Data Lake nimmt Daten in ihrer Rohform auf, das bedeutet, dass wir flexibel in der Nutzung dieser sind. Je nach aktuellem Bedarf werden die Daten entsprechend aufbereitet. Ein Data Warehouse lädt Daten nur in einer strukturierten Form, somit sollte auch der Verwendungszweck bereits festgelegt sein. 
  3. Benutzer: Der Umgang mit Data Lakes ist etwas schwerer als der Umgang mit Data Warehouses. Das liegt an den Rohdaten im Data Lake, die häufig zunächst von Data Scientists und speziellen Tools analysiert und übersetzt werden müssen. Anders ist das beim Data Warehouse: hier liegen die Daten strukturiert und somit „lesbar“ für alle vor. 
  4. Flexibilität für neue Datenquellen: Da Data Lakes keine feste Struktur haben, sind sie leicht zugänglich. Änderungen an Daten lassen sich schnell durchführen, da die offene Struktur Flexibilität bietet. Auch hier unterscheiden sich beide Repository-Modelle. Ein Data Warehouse ist in seiner Struktur zwar „aufgeräumter“ aber dadurch auch gleichzeitig eingeschränkter. 
  5. Pflege: Data Lakes haben einen hohen Anspruch an die Pflege der Daten. Die gegebene Flexibilität ermöglicht zwar eine agile Nutzung der Plattform, allerdings müssen die Daten dadurch immer wieder kontrolliert werden. Sonst wird der Datenpool schnell zum Datensumpf. Ein Data Warehouse ist im Vergleich ordentlich und strukturiert und benötigt deswegen auch wenig pflege. 
  6. Größe der Daten: Ein Data Lake ist in der Lage alle möglichen Dateiformate und Größen abzuspeichern. In der Regel basiert ein Data Lake auf einem skalierbaren Filesystem. Ein Data Warehouse hingegen, hat eine begrenzte Speichergröße und lässt sich oft nur durch neue Hardware aufstocken.
  7. Skalierbarkeit: Da wir beim Data Warehouse die Daten zunächst in eine strukturierte Form umschreiben müssen, werden nicht alle vorhandenen Daten verwendet. Dadurch ist ein Data Warehouse weniger skalierbar als ein Data Lake. 

Die Zukunft schreibt allerdings der Ansatz Data Lakehouse! In unserem Blogbeitrag erfahren Sie mehr.

Data Lake vs. Data Warehouse: Was passt am besten für meine Anforderungen?

Zu Beginn sollten wir betonen, dass das Data Warehouse ein fundamental wichtiges Element für die Speicherung und Nutzung von Daten für Unternehmen darstellt. Das liegt vor allem an der Qualitätssicherung: Ein Data Warehouse stellt eine strukturierte und verlässliche Quelle für jedes größere Unternehmen dar. Besonders um Vertriebskennzahlen oder Controlling-Elemente aufzuarbeiten.

Die Frage, ob sich statt eines Data Warehouses ein Data Lake für Ihr Unternehmen lohnt, sollten Sie mit Blick auf die Unternehmensgröße beantworten:

  • Wie viele Daten werden im Durchschnitt produziert?
  • Was sind das für Daten? (z.B. unstrukturierte Texte, Audiodateien, App-Daten)
  • Handelt es sich bei den Daten um Massendaten aus dem Internet oder gar von Maschinen?

Ihr Unternehmen sammelt Daten in einer hohen Zahl aus verschiedenen Quellen? Dann empfiehlt sich ein Data Lake. Data Lakes sind eine hervorragende Quelle für Analysten und Data Scientists, sie sind aber gleichzeitig aufwändig in der Pflege und es benötigt Spezialisten, die die Daten analysieren. Nicht zu vergessen: Ein Data Warehouse ist häufig ein Teil eines Data Lakes. 

Somit sollte gut überlegt sein, ob ein Data Warehouse für die Speicherung der Daten im Unternehmen reicht, oder ob ein Data Lake verwendet werden sollte.

Data Lake vs. Data Warehouse: Beispiele aus erfolgreichen Kundenprojekten

Transportwesen: Data Lakes ermöglichen Machine Learning Anwendungen

Für unseren Kunden aus dem Transportwesen haben wir in einem mehrjährigen Projekt einen großen Data Lake für verschiedene Daten Use-Cases abgebildet. Im Vergleich zu einem klassischen Data Warehouse war es dem Kunden somit möglich auch unstrukturierte Daten (Text, Video) für Machine Learning Modelle bereitzustellen und konnte erfolgreich eine Vielzahl von Datenprodukten umsetzen.

Versicherungsbranche: Data Lakes bietet einheitliche Datenplattform

In diesem spannenden Projekt arbeiteten wir mit einem führenden Deutschen Versicherungsvertrieb zusammen, der über 1.000 Mitarbeiter beschäftigt und einen Jahresumsatz von über 700 Millionen Euro verzeichnet. Unser Ziel war die Implementierung eines Data Lakes in der AWS-Cloud, um den Mitarbeitern des Unternehmens die notwendigen Ressourcen und das Fachwissen zur Verfügung zu stellen, damit sie in Zukunft eigenständig Machine-Learning-Projekte durchführen können.

Der AWS Data Lake hat es dem Team ermöglicht, innerhalb weniger Wochen Use Cases zu identifizieren, bei denen Kunden ein besonderes Potenzial aufweisen, und die Vertriebspartner entsprechend zu beraten. Durch die bereitgestellten Schulungen und Ressourcen ist das Customer-Intelligence-Team nun in der Lage, eigenständig KI-Use-Cases innerhalb kürzester Zeit zu entwickeln und in Produktion zu nehmen. Wir stehen dem Versicherungsvertrieb weiterhin für Fragen und Unterstützung bei Projekten zur Verfügung

Fazit

Sowohl Data Lake als auch Data Warehouse sind nützliche Konzepte für die Speicherung von unternehmensspezifischen Daten: das ist aber auch die einzige Gemeinsamkeit. Viel signifikanter sind die Unterschiede der beiden Repository-Modelle. Die Entscheidung, welches Konzept am besten zum eigenen Unternehmen passt, sollte aufgrund der Anzahl der zu verwendenden Daten getroffen werden. 

Sie möchten mehr zu dem Thema erfahren oder haben noch ungeklärte Fragen? Dann freuen wir uns über Ihre Kontaktaufnahme!

FAQ

Was sind die größten Unterschiede zwischen Data Lake und Data Warehouse?

Der größte Unterschied findet sich im Bereich der Aufnahmevoraussetzung der Daten: Während Data Lakes alle Daten unabhängig von ihrer Form aufnehmen können, kann das Data Warehouse nur strukturierte Daten aufnehmen. Ein weiterer Unterschied liegt in der Verarbeitung der Daten: der Zweck für die Verwendung der Daten bei einem DWH sind bereits im Vorhinein klar, beim Data Lake muss der Zweck erst noch gefunden werden.

Was sind Gemeinsamkeiten zwischen Data Warehouse und Data Lake?

Die größte und fast einzige Gemeinsamkeit der Modelle Data Lake und Data Warehouse ist, dass es sich bei beiden Modellen im Repositorys zur Speicherung unternehmensrelevanter Daten handelt. Das Data Warehouse ist dabei nicht selten Teil des Data Lakes, denn ein Data Lake speichert Daten in jeglicher Form – somit auch Data Warehouses.

Ihr Kontakt: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Auch interessant für Sie