Cloud Data Lake in der Transportbranche

Für unseren Kunden – eines der größten Verkehrsinfrastrukturunternehmen Deutschlands – durften wir bereits einen Data Lake aufbauen. Dieser ermöglicht seither Mitarbeitern aus verschiedenen Abteilungen das zentrale Arbeiten an und mit Daten. Es konnten bereits verschiedene Use Cases umgesetzt werden, jedoch stieß das Unternehmen einige Jahre nach Etablierung des Data Lakes auf folgende Herausforderung:

Die stetig wachsende Anzahl an Datenpipelines erfordert eine umfassende Betreuung dieser, die durch die Mitarbeiter nicht mehr ausreichend gedeckt werden kann. Ziel dieses Use Case war deswegen die Entlastung der Data Engineers durch eine architektonische Umgestaltung und Erweiterung des Data Lake. 

Auf einen Blick:

  • Branche: Verkehrsinfrastruktur
  • Projektziel: Erweiterung der Data Lake Plattform, um das Data Engineering Team zu entlasten
  • Technologien: AWS Athena, AWS Redshift, AWS Starburst

Die Ausgangslage unseres Kunden

Unser Kunde verfügt über 340.000 Mitarbeiter weltweit und ist eines der deutschlandweit größten Transportunternehmen. Mit Hilfe der Data Lake Plattform kann das Unternehmen Werbemaßnahmen kundenzentriert ausrichten, Herausforderungen bei der Infrastruktur frühzeitig identifizieren und Baumaßnahmen besser planen. Die Hauptaufgabe der Data Engineers war es zunächst, neue Datenpipelines aufzubauen und den Kunden damit Daten zentral zur Verfügung zu stellen. Das heißt, wenn es eine neue Anforderung von Kunden gibt, eine neue Datenquelle zur Verfügung zu stellen, dann soll das möglichst schnell umgesetzt werden. Dazu gehört die Anbindung der Quelle und Speicherung im Data Lake und die Etablierung einer Transformations-Pipeline, die in mehreren Stufen die ankommenden Daten aufbereitet. Diese Stufen umfassen:

  1. Absichern der Rohdaten
  2. Schemavalidierung
  3. Datenbereinigung
  4. Datenaggregation
  5. Datenoptimierung für den spezifischen Anwendungsfall

Zuletzt müssen die Daten den Endnutzern zur Verfügung gestellt werden, indem sie in einer Datenbank oder einem Data Warehouse gespeichert werden, wo sie effizient abgefragt werden können.

Daneben sind die Data Engineers aber auch dafür verantwortlich, dass die SLAs (Service Level Agreements) umgesetzt werden, sowie auf die Daten im Data Lake zu berechtigen. Da mit der Zeit immer mehr Datenstrecken gewartet und gefixt werden müssen, wurden die Data Engineers zum Flaschenhals im Data Lake und es blieb keine Zeit für die ursprüngliche Aufgabe – die Entwicklung neuer Pipelines und die Umsetzung neuer Anwendungsfälle.

Vor diesen Herausforderungen stand unser Kunde

Zeitmangel

Data Engineers sind mit der Wartung bestehender Pipelines beschäftigt, so dass keine Zeit für die Entwicklung neuer Pipelines bleibt.

Veralteter Data Lake

Durch die zeitliche Einspannung der Engineers ist eine Zügige Umsetzung der Kundenanforderungen (z.B. das Anpassen von Aggregationen) nicht möglich.

Keine neuen Use Cases

Die Engineers haben keine Zeit sich mit der Entwicklung neuer Pipelines zu befassen.

Entlastung der Data Engineers und optimierte Rollenverteilung durch Weiterentwicklung des Data Lake

Das Ziel war es, den Data Lake für zukünftige Entwicklungen optimal aufzustellen, dadurch die Data Engineers zu entlasten und eine optimierte Rollenverteilung im Data Science Team nach Fähigkeiten zu erreichen. Hierfür konzipierten wir den Data Lake architektonisch neu.

Unser Lösungsansatz

Die verschiedenen Daten sollten in Zukunft nicht mehr zentral im Data Lake, sondern über Datenprodukte bereitgestellt werden. Die Verantwortlichkeit über die Datenprodukte liegt dann nicht mehr bei den Data Engineers, sondern geht auf die Data Owner über. Diese übernehmen dann wichtige Aufgaben in Bezug auf die Bereitstellung ihrer Daten, wie zum Beispiel die Berechtigung auf die Daten für verschiedene Nutzer.

 

Die Zuweisung der Verantwortlichkeiten im Data Mesh

 

Data Engineers verarbeiten Daten meist performant mit klassischen Programmiersprachen wie Python und Scala. Diese Code-Affinität haben nicht alle Datennutzer. Sie sind häufig stark in der Datenabfrage und -manipulation mit SQL. Deswegen stellten wir passende Werkzeuge bereit, die es Nutzern möglich machen, Daten schnell und selbstständig mit SQL zu verarbeiten. Das umfasst beispielsweise die neue Aggregation der Daten oder die Umbenennung von Spalten. Der nächste Schritt bestand darin, die Datennutzer zu befähigen die letzten Stufen der Transformationspipeline zu entwickeln, speziell die finale Datenaufbereitung zu gestalten.

Data Lake Entwicklung Schritt-für-Schritt

1.

Data Mesh-Konzept

Erstellung von Datenprordukten nach einem Data Mesh-Konzept.

2.

Bereitstellung von Werkzeugen

Befähigung der Datennutzer durch Bereitstellung von Werkzeugen und Coachings.

3.

Verschiebung der Aufgabenverteilung

Data User sollen in der Lage sein, zukünftig die letzten Schritte der Transformationspipeline durchzuführen, damit Data Engineers entlastet werden und an neuen Pipelines arbeiten können.

Das Ergebnis

Mit der Umsetzung dieser Schritte beschränkt sich der Data Engineer stärker darauf, die initiale Datenaufnahme in den Data Lake zu gewährleisten, sowie die Plattformen bereitzustellen auf denen Data Owner, Business Analysts, Data Analysts und Data Scientists arbeiten können. Das führt dazu, dass diejenigen Rollen, die eng mit den Kunden zusammenarbeiten und deren Anforderungen genau verstehen, auch die Umsetzung dieser Anforderungen schnell und verlässlich übernehmen können. Die Data Engineers können sich währenddessen stärker auf Kernaufgaben konzentrieren, wie die Umsetzung der SLAs. Insgesamt wird der Data Lake durch diese Weiterentwicklung zukunftsfit gemacht und Abhängigkeiten zur Umsetzung von Kundeninteressen werden vermindert.

Diese Ergebnisse konnten wir erzielen:

Ideale Aufgabenverteilung

Data Engineers können sich durch die neue Aufgabenverteilung auf die Schritte der Datenaufnahme und den Data Lake fokussieren.

Bessere Ergebnisqualität

Dadurch, dass Data User näher an den Kunden sind, können Sie die Ergebnisse der Use Cases besser interpretieren und die Umsetzung zielführend steuern.

Erhöhte Effizienz

Durch die neue Rollenverteilung können Use Cases schneller und akkurater durchgeführt werden. Das Zeitmanagement ist zudem optimiert, und dem Durchführen neuer Use Cases steht nichts im Weg.

Wollen Sie mehr über das Thema Optimierung eines Data Lakes erfahren? Dann kontaktieren Sie uns!

Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Ihr Ansprechpartner

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren