Cloud Data Lake in der Transportbranche
Für unseren Kunden – eines der größten Verkehrsinfrastrukturunternehmen Deutschlands – durften wir bereits einen Data Lake aufbauen. Dieser ermöglicht seither Mitarbeitern aus verschiedenen Abteilungen das zentrale Arbeiten an und mit Daten. Es konnten bereits verschiedene Use Cases umgesetzt werden, jedoch stieß das Unternehmen einige Jahre nach Etablierung des Data Lakes auf folgende Herausforderung:
Die stetig wachsende Anzahl an Datenpipelines erfordert eine umfassende Betreuung dieser, die durch die Mitarbeiter nicht mehr ausreichend gedeckt werden kann. Ziel dieses Use Case war deswegen die Entlastung der Data Engineers durch eine architektonische Umgestaltung und Erweiterung des Data Lake.
Auf einen Blick:
- Branche: Verkehrsinfrastruktur
- Projektziel: Erweiterung der Data Lake Plattform, um das Data Engineering Team zu entlasten
- Technologien: AWS Athena, AWS Redshift, AWS Starburst
Die Ausgangslage unseres Kunden
Unser Kunde verfügt über 340.000 Mitarbeiter weltweit und ist eines der deutschlandweit größten Transportunternehmen. Mit Hilfe der Data Lake Plattform kann das Unternehmen Werbemaßnahmen kundenzentriert ausrichten, Herausforderungen bei der Infrastruktur frühzeitig identifizieren und Baumaßnahmen besser planen. Die Hauptaufgabe der Data Engineers war es zunächst, neue Datenpipelines aufzubauen und den Kunden damit Daten zentral zur Verfügung zu stellen. Das heißt, wenn es eine neue Anforderung von Kunden gibt, eine neue Datenquelle zur Verfügung zu stellen, dann soll das möglichst schnell umgesetzt werden. Dazu gehört die Anbindung der Quelle und Speicherung im Data Lake und die Etablierung einer Transformations-Pipeline, die in mehreren Stufen die ankommenden Daten aufbereitet. Diese Stufen umfassen:
- Absichern der Rohdaten
- Schemavalidierung
- Datenbereinigung
- Datenaggregation
- Datenoptimierung für den spezifischen Anwendungsfall
Zuletzt müssen die Daten den Endnutzern zur Verfügung gestellt werden, indem sie in einer Datenbank oder einem Data Warehouse gespeichert werden, wo sie effizient abgefragt werden können.
Daneben sind die Data Engineers aber auch dafür verantwortlich, dass die SLAs (Service Level Agreements) umgesetzt werden, sowie auf die Daten im Data Lake zu berechtigen. Da mit der Zeit immer mehr Datenstrecken gewartet und gefixt werden müssen, wurden die Data Engineers zum Flaschenhals im Data Lake und es blieb keine Zeit für die ursprüngliche Aufgabe – die Entwicklung neuer Pipelines und die Umsetzung neuer Anwendungsfälle.
Das Ziel war es, den Data Lake für zukünftige Entwicklungen optimal aufzustellen, dadurch die Data Engineers zu entlasten und eine optimierte Rollenverteilung im Data Science Team nach Fähigkeiten zu erreichen. Hierfür konzipierten wir den Data Lake architektonisch neu.
Unser Lösungsansatz
Die verschiedenen Daten sollten in Zukunft nicht mehr zentral im Data Lake, sondern über Datenprodukte bereitgestellt werden. Die Verantwortlichkeit über die Datenprodukte liegt dann nicht mehr bei den Data Engineers, sondern geht auf die Data Owner über. Diese übernehmen dann wichtige Aufgaben in Bezug auf die Bereitstellung ihrer Daten, wie zum Beispiel die Berechtigung auf die Daten für verschiedene Nutzer.
Data Engineers verarbeiten Daten meist performant mit klassischen Programmiersprachen wie Python und Scala. Diese Code-Affinität haben nicht alle Datennutzer. Sie sind häufig stark in der Datenabfrage und -manipulation mit SQL. Deswegen stellten wir passende Werkzeuge bereit, die es Nutzern möglich machen, Daten schnell und selbstständig mit SQL zu verarbeiten. Das umfasst beispielsweise die neue Aggregation der Daten oder die Umbenennung von Spalten. Der nächste Schritt bestand darin, die Datennutzer zu befähigen die letzten Stufen der Transformationspipeline zu entwickeln, speziell die finale Datenaufbereitung zu gestalten.
Data Lake Entwicklung Schritt-für-Schritt
1.
Erstellung von Datenprordukten nach einem Data Mesh-Konzept.
2.
Befähigung der Datennutzer durch Bereitstellung von Werkzeugen und Coachings.
3.
Data User sollen in der Lage sein, zukünftig die letzten Schritte der Transformationspipeline durchzuführen, damit Data Engineers entlastet werden und an neuen Pipelines arbeiten können.
Mit der Umsetzung dieser Schritte beschränkt sich der Data Engineer stärker darauf, die initiale Datenaufnahme in den Data Lake zu gewährleisten, sowie die Plattformen bereitzustellen auf denen Data Owner, Business Analysts, Data Analysts und Data Scientists arbeiten können. Das führt dazu, dass diejenigen Rollen, die eng mit den Kunden zusammenarbeiten und deren Anforderungen genau verstehen, auch die Umsetzung dieser Anforderungen schnell und verlässlich übernehmen können. Die Data Engineers können sich währenddessen stärker auf Kernaufgaben konzentrieren, wie die Umsetzung der SLAs. Insgesamt wird der Data Lake durch diese Weiterentwicklung zukunftsfit gemacht und Abhängigkeiten zur Umsetzung von Kundeninteressen werden vermindert.
Wollen Sie mehr über das Thema Optimierung eines Data Lakes erfahren? Dann kontaktieren Sie uns!
Ihr Ansprechpartner
Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.
In diesem Gespräch erfahren Sie:
- Wie Ihr Use-Case technisch am besten umgesetzt werden kann
- Wie wir maximal sicher mit Ihren Kundendaten umgehen
- Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte