Ein Data Lake ist ein zentrales Repository für eine unendliche Menge von strukturierten, semistrukturierten und unstrukturierten Daten in ihrer Rohform. In diesem Beitrag erklären wir, warum Sie einen Data Lake in Ihrem Unternehmen implementieren sollten, welche Vorteile dieser mit sich bringt und wie der Data Lake aufgebaut ist.
Was ist ein Data Lake?
Ein Data Lake (dt. Datensee) ist eine Aufbewahrungsmöglichkeit (ein zentrales Repository) für strukturierte, teilweise strukturierte und unstrukturierte Daten. So können wir alle Daten unabhängig von ihrer Form oder Größe in ihrem Rohformat an einem Ort abspeichern.
Diese Art des Speicherns bietet den Vorteil, dass wir die Daten nicht zuvor zunächst validieren oder umformatieren müssen. Dieser Schritt folgt erst, wenn die Daten benötigt werden. Außerdem erhöht sich die analytische Performance durch die hohe Anzahl an quantitativen Daten. Letztlich können Sie sich den Data Lake tatsächlich vorstellen wie einen Pool aus Daten.
Was sind die Vorteile eines Data Lake?
Die Verwendung eines Data Lakes bringt diverse Vorteile mit sich. Im Allgemeinen lassen sich die Vorteile darin abbilden, dass Daten aus verschiedenen Datenquellen in einem einzelnen „Datensee“ (eng. Data Lake) abgespeichert sind. So fallen wie bereits erwähnt aufwändige Arbeitsschritte, wie das Validieren der Daten zunächst weg. Außerdem finden sich alle Daten an einem Ort und können so einfach und schnell abgerufen werden – ein enormer Vorteil im direkten Vergleich mit Datensilos.
Dadurch ergibt sich:
- Die Möglichkeit, diverse Data Ressourcen und Formate schnell und nahtlos abzuspeichern
- Ein zentrierter Zugang zu Daten und Kategorien
- Eine vereinfachte Informations- und Datenverarbeitung
- Zentrale Quelle für Machine Learning Projekte und KI
- Steigerung der Flexibilität in der Entwicklung von Datenanwendungen
Der Data Lake ist ein wichtiger Teil einer modernen Datenarchitektur. In der folgenden Abbildung sehen Sie, dass die Daten zunächst in den Data Lake geladen werden. Im Lake selbst folgen dann ETL Prozesse, so dass die Daten durch verschiedene Layer laufen. Dadurch steigert sich die Qualität der Daten, welche dann für Machine Learning Analysen oder Reportings vorbereitet sind. Die gereinigten Daten können durch ihr einheitliches Format natürlich auch in ein Data Warehouse geladen werden.
Insgesamt lassen sich also viele Vorteile durch die Nutzung eines Data Lakes verzeichnen. Die größten Vorteile sind mit Abstand die schnelle Datenspeicherung, die verfügbare Rechenleistung und die diversen Möglichkeiten für die Auswertungen der Daten.
Gemeinsam mit den Vorteilen des Data Warehauses ergibt sich das Data Lakehouse, mehr erfahren Sie in unserem Blogbeitrag!
Sehen wir uns nun an, wie ein Data Lake in der Anwendung aussieht.
Welche Anwendungsfälle gibt es?
Die Implementierung des Data Lakes in Ihrem Unternehmen vereinfacht viele Prozesse und ermöglicht einen schnellen Umgang mit diversen Daten in ihrer Rohform. Die Umwandlung und Validierung der Daten folgen häufig erst, wenn wir diese verwenden (Schema-on-Read).
Durch einen Data Lake bauen Sie sich einen zentralen Speicherort für Ihre Daten auf. Das liegt daran, dass Data Lakes auf Big Data Technologien basieren und heute werden diese in der Regel in einer Cloud Umgebung aufgebaut. Cloud Umgebungen bieten die nötige Fähigkeit zur Skalierung und Flexibilität.
Daten werden in der Regel nicht einfach nur so gespeichert, sonder der Sinn und Zweck ist die Analyse und damit auch die Verbesserung von Geschäftsprozessen. So können wir beispielsweise das Kundenerhalten besser vorhersagen, wenn mehr Daten vorhanden sind: Zusammenhänge zwischen einer Produktansicht und einem Kauf sind schneller ersichtlich.
In der Praxis zeichnen sich die Vorteile des Data Lakes Branchenabhängig zum Beispiel wie folgt ab:
- Telekommunikation: Aufgrund der großen Anzahl an Daten aus verschiedenen Datenquellen lassen sich bei einer Analyse Modelle für die Abwanderungswahrscheinlichkeit der Kunden bilden – somit lassen sich Kosten durch gezielte Präventionsmaßnahmen effektiv senken.
- Mediale Unterhaltung: Für jeden Kunden die passende Empfehlung – Empfehlungssysteme können ebenfalls ideal auf Basis des Data Lakes modelliert werden.
- Versicherungen: Auch hier lassen sich die immensen Daten des Data Lakes als Basis nutzen, um Cross- und Upselling-Potenziale durch Machine-Learning-Prozesse wahrzunehmen.
Was ist der Unterschied zwischen Data Lake und Data Warehouse?
Data Lake und Data Warehouse unterscheiden sich vor allem in der Datenstruktur. Während Data Warehouse Daten speichert, die bereits strukturiert sind, dient der Data Lake als Speicher für jegliche Formen von Daten. Diese Unterscheidung wirkt sich auch auf die Verwendung der Daten des jeweiligen Repository aus. Die Daten des Data Lakes müssen zunächst in eine strukturierte Form umgewandelt werden. Die Daten des Data Warehouse sind strukturiert und Sie können diese direkt verwenden.
In der folgenden Tabelle sind alle Unterschiede der beiden Repositorys aufgelistet:
Item | Data Warehouse | Data Lake |
Datenstruktur | Strukturiert (verarbeitet) | Strukturiert, semi-strukturiert, unstrukturiert (Roh) |
Verwendungszweck der Daten | Bereits festgelegt | Noch unbekannt |
Benutzer | Business-Anwender, KPI-Reporting | Data Scientist |
Flexibilität für neue Datenquellen | Gering | Hoch |
Pflege | einfach | hoch |
Größe der Daten | Mittel | Groß |
Skalierbarkeit | Gering | Hoch |
Falls Sie sich ausführlicher über die Unterschiede und Gemeinsamkeiten zwischen Data Lake und Data Warehouse erkundigen möchten, haben wir hier einen separaten Beitrag für Sie veröffentlicht: Data Warehouse vs. Data Lake
Fazit: Die zentrale Plattform für alle Datenformen
Zusammenfassend lässt sich nun sagen, dass die Implementierung eines Data Lakes ist besonders dann sinnvoll ist, wenn Sie Ihre Daten zunächst an einem Ort abspeichern und vorher nicht umformatieren möchten. Ein weiterer Schritt ist erst dann obligatorisch, wenn Sie die Daten beispielsweise für Machine Learning Prozesse weiterverarbeiten möchten.
Sollten Sie weitere Fragen bezüglich des Themas Data Lake oder auch rund um das Thema Machine Learning haben, freuen wir uns über eine Kontaktaufnahme.
FAQ – Die wichtigsten Fragen schnell beantwortet
Ein Data Lake ist ein zentraler Speicherort für strukturierte, semi-strukturierte und unstrukturierte Daten. Deswegen spricht man von einem Lake (deutsch=See): Die Daten müssen zuvor nicht in ein universelles Format umgewandelt werden, sondern werden in ihrer Rohform übertragen.
Dadurch, dass die Daten zuvor nicht in ein einheitliches Format umgewandelt werden müssen, sondern in ihrer Rohform aufgenommen werden, spart man sich viele zeit- und kostenaufwendige Prozesse.
Der zentrale Unterschied findet sich im Bereich der Datenformatierung und -verarbeitung. Während Daten im Data Warehouse zuvor einheitlich formatiert werden, fällt dieser Schritt beim Data Lake weg. Gleichzeitig muss dann aber die Strukturierung und Validierung der Daten in einem späteren Schritt folgen. Beim Data Warehouse können die Daten sofort verwendet werden.