Skalierbare Datenplattform für datengetriebene Entscheidungen
Sie möchten Ihre Daten zentral, effizient und skalierbar für Reporting, Machine Learning und weitere Anwendungsfälle bereitstellen, wissen aber nicht wie? Dann hilft Ihnen dieser Plattform-Use Case weiter. In dieser Case Study zeigen wir Ihnen, wie wir für einen internationalen Automobilhersteller eine zentrale Datenplattform auf Basis von Databricks aufgebaut haben – inklusive automatisierter Verarbeitung, hoher Datenqualität und einem Framework für die einfache Integration neuer Datenquellen.
Wie kann man Daten so bereitstellen, dass sie für verschiedene Nutzergruppen sofort nutzbar sind?
Unser Kunde, ein internationaler Automobilhersteller mit tausenden Mitarbeitenden in Europa, beauftragte uns mit dem Aufbau einer skalierbaren Datenplattform auf Basis von Databricks. Ziel war es, Daten aus der Customer Data Platform (CDP) zentral bereitzustellen – für Reporting, Machine Learning und weitere datengetriebene Anwendungen.
Die Anforderungen unseres Kunden waren klar: Die Plattform sollte flexibel erweiterbar sein, eine Enterprise-ready-Governance bieten und automatisiert aktualisiert werden können. Außerdem sollte sie von unterschiedlichen Fachbereichen direkt nutzbar sein.
Um dieses Problem effizient zu lösen, haben wir eine moderne Datenplattform auf Basis von Databricks (in AWS) entwickelt. Ziel war es, bestehende Daten aus der Customer Data Platform automatisiert, inkrementell und qualitätsgesichert für verschiedene Anwendungsfälle bereitzustellen.
Die nötigen Daten lagen bereits vor – wurden jedoch manuell verarbeitet und kaum systematisch genutzt. Mit unserem Framework auf Basis von DLT, Unity Catalog und metadata-driven Development konnten wir den gesamten Workflow standardisieren, beschleunigen und für zukünftige Erweiterungen öffnen. Effiziente Datenbereitstellung in Echtzeit!
Wie gehen wir dabei vor?
1.
33 Tabellen aus der Customer Data Platform wurden in Databricks eingebunden und nach Medallion-Architektur (Bronze, Silver, Gold) verarbeitet – vollständig automatisiert.
2.
Transformationen, Schemata und Qualitätsregeln wurden zentral in Konfigurationsdateien definiert – für weniger Code, geringeren Aufwand und hohe Konsistenz.
3.
Die aufbereitete Datenbasis wird für Reporting und Machine Learning genutzt. Inkrementelle Verarbeitung sorgt für hohe Performance und minimale Kosten.
Unsere Lösung
Insgesamt wurden 33 Tabellen aus der Customer Data Platform in Databricks integriert. Die Verarbeitung folgte der Medallion-Architektur (Bronze, Silver, Gold) und wurde mithilfe von DLT-Pipelines umgesetzt.
Ein zentrales Element war die Umsetzung nach dem Prinzip des Metadata-driven Development. Für jede Tabelle wurden Konfigurationsdateien mit Schemadefinitionen, Datenqualitätsregeln sowie SQL- und Python-Transformationen erstellt. So konnte der Entwicklungsaufwand reduziert und Codeduplikation vermieden werden. Bei der Entwicklung der Pipelines konnten wir auf bestehende Datasolut-Standards zurückgreifen, was eine effiziente und konsistente Umsetzung ermöglichte.
Die Datenverarbeitung im Detail:
- Im Bronze Layer wurden Rohdaten abgelegt.
- Im Silver Layer wurden diese Daten bereinigt, etwa durch Prüfung auf gültige Datumswerte und eindeutige Primärschlüssel. Fehlerhafte Daten wurden in Quarantäne-Tabellen verschoben.
- Über Dashboards wurde ein Überblick über die Datenqualität bereitgestellt.
- Im Gold Layer erfolgte die Modellierung nach dem Star Schema, um Daten gezielt für Reporting- und Machine-Learning-Anwendungen bereitzustellen.
Zusätzliche Anforderungen wurden ebenfalls umgesetzt:
- Schutz personenbezogener Daten durch Databricks-Masking.
- Berücksichtigung gelöschter Datensätze über eine separate Löschliste.
- Einsatz von SCD1-Logik zur Historisierung.
- Verwendung von Liquid Clustering, um die Performance bei der Verarbeitung und Abfrage großer Datenmengen zu verbessern.
Ein besonderer Effizienzgewinn konnte durch die inkrementelle Verarbeitung erzielt werden: Pro DLT-Lauf wurde nur etwa 0,2 % der Gesamtdatenmenge verarbeitet, was eine Einsparung an Rechenzeit und Kosten von 99,8 % gegenüber einem Fullload bedeutet.
Diese Ergebnisse konnten wir mit der Databricks Platform erzielen:
Die Datenplattform bildet nun die technische Grundlage für zahlreiche datengetriebene Anwendungen.
Weitere Datenquellen wie GA4 und das zentrale DWH können im nächsten Schritt nach dem gleichen Prinzip integriert werden.
Welche Probleme konnten durch die Databricks Plattform vermieden werden?
- Redundante Datensilos und Aufwand im Entwicklerteam
- Zu hohe Personalkosten durch manuelle Prozesse
- Qualitätsprobleme bei Downstream-Abnehmern wie ML/BI
Sie möchten eine skalierte Datenplattform auf Databricks aufbauen? Dann melden Sie sich!
Lassen Sie uns sprechen und Ihr Potenzial entdecken.
Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.
In diesem Gespräch erfahren Sie:
- Wie Ihr Use-Case technisch am besten umgesetzt werden kann
- Wie wir maximal sicher mit Ihren Kundendaten umgehen
- Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte