Was ist ein Data Lake? Konzept, Nutzen und Anwendungsfälle

Ein Data Lake ist ein zentrales Repository für eine unendliche Menge von strukturierten, semistrukturierten und unstrukturierten Daten in ihrer Rohform. In diesem Beitrag erklären wir, warum Sie einen Data Lake in Ihrem Unternehmen implementieren sollten, welche Vorteile dieser mit sich bringt und wie der Data Lake aufgebaut ist. 

Was ist ein Data Lake?

Ein Data Lake (dt. Datensee) ist eine Aufbewahrungsmöglichkeit (ein zentrales Repository) für strukturierte, teilweise strukturierte und unstrukturierte Daten. So können wir alle Daten unabhängig von ihrer Form oder Größe in ihrem Rohformat an einem Ort abspeichern. 

Diese Art des Speicherns bietet den Vorteil, dass wir die Daten nicht zuvor zunächst validieren oder umformatieren müssen. Dieser Schritt folgt erst, wenn die Daten benötigt werden. Außerdem erhöht sich die analytische Performance durch die hohe Anzahl an quantitativen Daten. Letztlich können Sie sich den Data Lake tatsächlich vorstellen wie einen Pool aus Daten.

Die Funktionsweise des Data Lakes: strukturierte, semi-strukturierte, unstrukturierte Daten, ETL, Data Warehouse.
Data Lake Aufbau und Funktionsweise.

Warum sollten Sie einen Data Lake verwenden?

Die Verwendung eines Data Lakes bringt diverse Vorteile mit sich. Im Allgemeinen lassen sich die Vorteile darin abbilden, dass Daten aus verschiedenen Datenquellen in einem einzelnen „Datensee“ (eng. Data Lake) abgespeichert sind. So fallen wie bereits erwähnt aufwändige Arbeitsschritte, wie das Validieren der Daten zunächst weg. Außerdem finden sich alle Daten an einem Ort und können so einfach und schnell abgerufen werden – ein enormer Vorteil im direkten Vergleich mit Datensilos. 

Funktionsweise von Data Lake und Daten-Silo in direkter Gegenüberstellung: Datenquellen, Speicherung, Operationalisierung.
Data Lake vs. Daten Silo.

Dadurch ergibt sich:

  • Die Möglichkeit, diverse Data Ressourcen und Formate schnell und nahtlos abzuspeichern
  • Ein zentrierter Zugang zu Daten und Kategorien
  • Eine vereinfachte Informations- und Datenverarbeitung
  • Zentrale Quelle für Machine Learning Projekte und KI 
  • Steigerung der Flexibilität in der Entwicklung von Datenanwendungen

Insgesamt lassen sich also viele Vorteile durch die Nutzung eines Data Lakes verzeichnen. Die größten Vorteile sind mit Abstand die schnelle Datenspeicherung, die verfügbare Rechenleistung und die diversen Möglichkeiten für die Auswertungen der Daten. 

Sehen wir uns nun an, wie ein Data Lake in der Anwendung aussieht.

Welche Anwendungsfälle für einen Data Lake gibt es?

Die Implementierung des Data Lakes in Ihrem Unternehmen vereinfacht viele Prozesse und ermöglicht einen schnellen Umgang mit diversen Daten in ihrer Rohform. Die Umwandlung und Validierung der Daten folgen häufig erst, wenn diese verwendet werden (Schema-on-Read). 

Durch einen Data Lake bauen Sie sich einen zentralen Speicherort für Ihre Daten auf. Data Lakes basieren auf Big Data Technologie und heute werden diese in der Regel in einer Cloud Umgebung aufgebaut. Cloud Umgebungen bieten die nötige Fähigkeit zur Skalierung und Flexibilität.

Daten werden in der Regel nicht einfach nur so gespeichert, sonder der Sinn und Zweck ist die Analyse und damit auch die Verbesserung von Geschäftsprozessen. So können wir beispielsweise das Kundenerhalten besser vorhersagen, wenn mehr Daten vorhanden sind: Zusammenhänge zwischen einer Produktansicht und einem Kauf sind schneller ersichtlich.

In der Praxis zeichnen sich die Vorteile des Data Lakes Branchenabhängig zum Beispiel wie folgt ab: 

  • Telekommunikation: Aufgrund der großen Anzahl an Daten aus verschiedenen Datenquellen lassen sich bei einer Analyse Modelle für die Abwanderungswahrscheinlichkeit der Kunden bilden – somit lassen sich Kosten durch gezielte Präventionsmaßnahmen effektiv senken. 
  • Mediale Unterhaltung: Für jeden Kunden die passende Empfehlung – Empfehlungssysteme können ebenfalls ideal auf Basis des Data Lakes modelliert werden. 
  • Versicherungen: Auch hier lassen sich die immensen Daten des Data Lakes als Basis nutzen, um Cross- und Upselling-Potenziale durch Machine-Learning-Prozesse wahrzunehmen. 

Was ist der Unterschied zwischen Data Lake und Data Warehouse?

Data Lake und Data Warehouse unterscheiden sich vor allem in der Datenstruktur. Während Data Warehouse Daten speichert, die bereits strukturiert sind, dient der Data Lake als Speicher für jegliche Formen von Daten. Diese Unterscheidung wirkt sich auch auf die Verwendung der Daten des jeweiligen Repository aus. Die Daten des Data Lakes müssen zunächst in eine strukturierte Form umgewandelt werden, während die Daten des Data Warehouses bereits verwendet werden.

In der folgenden Tabelle sind alle Unterschiede der beiden Repositorys aufgelistet: 

ItemData WarehouseData Lake
DatenstrukturStrukturiert (verarbeitet)Strukturiert, semi-strukturiert, unstrukturiert (Roh)
Verwendungszweck der DatenBereits festgelegtNoch unbekannt
BenutzerBusiness-Anwender, KPI-ReportingData Scientist
Flexibilität für neue DatenquellenGeringHoch
Pflegeeinfachhoch
Größe der DatenMittelGroß
SkalierbarkeitGeringHoch
Data Lake vs. Data Warehouse.

Falls Sie sich ausführlicher über die Unterschiede und Gemeinsamkeiten zwischen Data Lake und Data Warehouse erkundigen möchten, haben wir hier einen separaten Beitrag für Sie veröffentlicht: Data Warehouse vs. Data Lake

Fazit: Der Data Lake als zentrale Plattform für alle Datenformen

Zusammenfassend lässt sich nun sagen, dass die Implementierung eines Data Lakes ist besonders dann sinnvoll ist, wenn Sie Ihre Daten zunächst an einem Ort abspeichern und vorher nicht umformatieren möchten. Ein weiterer Schritt ist erst dann obligatorisch, wenn Sie die Daten beispielsweise für Machine Learning Prozesse weiterverarbeiten möchten. 

Sollten Sie weitere Fragen bezüglich des Themas Data Lake oder auch rund um das Thema Machine Learning haben, freuen wir uns über eine Kontaktaufnahme. 

FAQ – Die wichtigsten Fragen schnell beantwortet

Was ist ein Data Lake?

Ein Data Lake ist ein zentraler Speicherort für strukturierte, semi-strukturierte und unstrukturierte Daten. Deswegen spricht man von einem Lake (deutsch=See): Die Daten müssen zuvor nicht in ein universelles Format umgewandelt werden, sondern werden in ihrer Rohform übertragen.

Was sind die Vorteile eines Data Lakes?

Dadurch, dass die Daten zuvor nicht in ein einheitliches Format umgewandelt werden müssen, sondern in ihrer Rohform aufgenommen werden, spart man sich viele zeit- und kostenaufwendige Prozesse. 

Was ist der Unterschied zwischen Data Lake und Data Warehouse?

Der zentrale Unterschied findet sich im Bereich der Datenformatierung und -verarbeitung. Während Daten im Data Warehouse zuvor einheitlich formatiert werden, fällt dieser Schritt beim Data Lake weg. Gleichzeitig muss dann aber die Strukturierung und Validierung der Daten in einem späteren Schritt folgen. Beim Data Warehouse können die Daten sofort verwendet werden.

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Download:

KI Use Cases für Marketing und Vertrieb

Jetzt eintragen und spannende KI-Projektbeispiele aus der Praxis erhalten:

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.