Skalierbare Datenplattform für datengetriebene Entscheidungen

Sie möchten Ihre Daten zentral, effizient und skalierbar für Reporting, Machine Learning und weitere Anwendungsfälle bereitstellen, wissen aber nicht wie? Dann hilft Ihnen dieser Plattform-Use Case weiter. In dieser Case Study zeigen wir Ihnen, wie wir für einen internationalen Automobilhersteller eine zentrale Datenplattform auf Basis von Databricks aufgebaut haben – inklusive automatisierter Verarbeitung, hoher Datenqualität und einem Framework für die einfache Integration neuer Datenquellen.

Wie kann man Daten so bereitstellen, dass sie für verschiedene Nutzergruppen sofort nutzbar sind?

Unser Kunde, ein internationaler Automobilhersteller mit tausenden Mitarbeitenden in Europa, beauftragte uns mit dem Aufbau einer skalierbaren Datenplattform auf Basis von Databricks. Ziel war es, Daten aus der Customer Data Platform (CDP) zentral bereitzustellen – für Reporting, Machine Learning und weitere datengetriebene Anwendungen.

Die Anforderungen unseres Kunden waren klar: Die Plattform sollte flexibel erweiterbar sein, eine Enterprise-ready-Governance bieten und automatisiert aktualisiert werden können. Außerdem sollte sie von unterschiedlichen Fachbereichen direkt nutzbar sein.

Vor diesen Herausforderungen stand unser Kunde

Manuelle Datenaufbereitung

Daten mussten aus der Oracle CDP manuell exportiert, bereinigt und wieder hochgeladen werden.

Hoher Ressourcenverbrauch

Für jede Verarbeitung wurde die gesamte Datenmenge neu geladen, was hohe Kosten verursachte.

Redundante Arbeiten

Mehrere Teams führten ähnliche Bereinigungsschritte unabhängig voneinander durch.

Mit Databricks zur skalierbaren Datenplattform

Um dieses Problem effizient zu lösen, haben wir eine moderne Datenplattform auf Basis von Databricks (in AWS) entwickelt. Ziel war es, bestehende Daten aus der Customer Data Platform automatisiert, inkrementell und qualitätsgesichert für verschiedene Anwendungsfälle bereitzustellen.

Die nötigen Daten lagen bereits vor – wurden jedoch manuell verarbeitet und kaum systematisch genutzt. Mit unserem Framework auf Basis von DLT, Unity Catalog und metadata-driven Development konnten wir den gesamten Workflow standardisieren, beschleunigen und für zukünftige Erweiterungen öffnen. Effiziente Datenbereitstellung in Echtzeit!

Databricks Beratung

Wie gehen wir dabei vor?

1.

Automatisierte Datenintegration

33 Tabellen aus der Customer Data Platform wurden in Databricks eingebunden und nach Medallion-Architektur (Bronze, Silver, Gold) verarbeitet – vollständig automatisiert.

2.

Verarbeitung mit Metadaten

Transformationen, Schemata und Qualitätsregeln wurden zentral in Konfigurationsdateien definiert – für weniger Code, geringeren Aufwand und hohe Konsistenz.

3.

Skalierbare Datenbereitstellung

Die aufbereitete Datenbasis wird für Reporting und Machine Learning genutzt. Inkrementelle Verarbeitung sorgt für hohe Performance und minimale Kosten.

Unsere Lösung

Insgesamt wurden 33 Tabellen aus der Customer Data Platform in Databricks integriert. Die Verarbeitung folgte der Medallion-Architektur (Bronze, Silver, Gold) und wurde mithilfe von DLT-Pipelines umgesetzt.

Ein zentrales Element war die Umsetzung nach dem Prinzip des Metadata-driven Development. Für jede Tabelle wurden Konfigurationsdateien mit Schemadefinitionen, Datenqualitätsregeln sowie SQL- und Python-Transformationen erstellt. So konnte der Entwicklungsaufwand reduziert und Codeduplikation vermieden werden. Bei der Entwicklung der Pipelines konnten wir auf bestehende Datasolut-Standards zurückgreifen, was eine effiziente und konsistente Umsetzung ermöglichte.

Grafik zeigt den Ablauf für Entwickler zur Erstellung von Silver- und Gold-Tabellen-Definitionen.

Die Datenverarbeitung im Detail:

  • Im Bronze Layer wurden Rohdaten abgelegt.
  • Im Silver Layer wurden diese Daten bereinigt, etwa durch Prüfung auf gültige Datumswerte und eindeutige Primärschlüssel. Fehlerhafte Daten wurden in Quarantäne-Tabellen verschoben.
  • Über Dashboards wurde ein Überblick über die Datenqualität bereitgestellt.
  • Im Gold Layer erfolgte die Modellierung nach dem Star Schema, um Daten gezielt für Reporting- und Machine-Learning-Anwendungen bereitzustellen.

 

End-to-End-Datenpipeline von Oracle und GA4 über S3, Bronze, Silver, Gold bis Reporting mit Databricks.

 

Zusätzliche Anforderungen wurden ebenfalls umgesetzt:

  • Schutz personenbezogener Daten durch Databricks-Masking.
  • Berücksichtigung gelöschter Datensätze über eine separate Löschliste.
  • Einsatz von SCD1-Logik zur Historisierung.
  • Verwendung von Liquid Clustering, um die Performance bei der Verarbeitung und Abfrage großer Datenmengen zu verbessern.

Ein besonderer Effizienzgewinn konnte durch die inkrementelle Verarbeitung erzielt werden: Pro DLT-Lauf wurde nur etwa 0,2 % der Gesamtdatenmenge verarbeitet, was eine Einsparung an Rechenzeit und Kosten von 99,8 % gegenüber einem Fullload bedeutet.

Diese Ergebnisse konnten wir mit der Databricks Platform erzielen:

Die Datenplattform bildet nun die technische Grundlage für zahlreiche datengetriebene Anwendungen.

Weitere Datenquellen wie GA4 und das zentrale DWH können im nächsten Schritt nach dem gleichen Prinzip integriert werden.

Effiziente Integration und Verarbeitung

Automatisierte Ladeprozesse und inkrementelle Verarbeitung reduzieren Zeit und Kosten.

Zentrale Datenquelle mit hoher Qualität

Nutzer greifen auf geprüfte Daten mit dokumentierten Qualitätsmetriken zu.

Skalierbares Framework für neue Datenquellen

Neue Tabellen lassen sich mit geringem Aufwand integrieren.

Welche Probleme konnten durch die Databricks Plattform vermieden werden? 

  • Redundante Datensilos und Aufwand im Entwicklerteam
  • Zu hohe Personalkosten durch manuelle Prozesse
  • Qualitätsprobleme bei Downstream-Abnehmern wie ML/BI

Sie möchten eine skalierte Datenplattform auf Databricks aufbauen? Dann melden Sie sich! 

Datenplattform aufbauen

Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Lassen Sie uns sprechen und Ihr Potenzial entdecken.

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren