Einrichtung eines Lakehouses in Databricks

Trotz seiner starken Marktposition sah sich das Unternehmen mit großen Herausforderungen im Datenmanagement konfrontiert und die Umsetzung von Machine Learning Use Cases erwies sich als schwierig.

In dieser Case Study haben wir für den Kunden eine Lakehouse Plattform in Databricks aufgebaut, um alle ML und BI Anwendungen zentral in einer Plattform abzubilden und somit die Effizienz und Umsetzungsgeschwindigkeit von Analytics Anwendungen zu beschleunigen.

Auf einen Blick:

  • Branche: Handel
  • Projektziel: Effizienzsteigerung durch Aufbau einer Lakehouse Plattform in Databricks
  • Technologien: Databricks, MLFlow, Unity Catalog, MS SQL, PowerBi, Gitlab
  • Dauer: 6 Monate

Zeit- und Ressourcenintensive Datenaufbereitung ohne KI

Mit über 200.000 Produkten für Lager, Betrieb und Büro und Millionen von Kunden ist unser Kunde einer der führenden B2B-Anbieter für Büroausstattung in Europa.

Trotz dieser Erfolge stand unser Kunde vor Herausforderungen in der Datenverarbeitung: Die manuelle Aufbereitung der Daten für externe Berater war zeit- und ressourcenintensiv. Zudem fehlte es an Transparenz bei der Datenverarbeitung durch externe Dienstleister, was den Bedarf nach einer einheitlichen, kontrollierbaren und transparenten Datenplattform aufkommen ließ.

Vor diesen Herausforderungen stand unser Kunde

Zeitaufwendige Datenaufbereitung

Die manuelle Datenaufbereitung erforderte einen erheblichen Zeit- und Ressourcenaufwand.

Black Box

Fehlende Transparenz in der Datenverarbeitung durch externe Dienstleister, was die Notwendigkeit einer kontrollierbaren und transparenten Datenplattform aufwarf.

Automatisierungsbedarf

Unser Kunde musste Prozesse automatisieren und eine einheitliche Datenplattform etablieren, um Machine Learning Use Cases selbstständig umsetzen zu können.

Databricks Plattform für eine einheitliche Datenverarbeitung

Das primäre Ziel bestand darin, eine einheitliche Datenplattform zu etablieren, um die Automatisierung von Prozessen zu fördern und unseren Kunden zu befähigen, selbstständig Machine Learning Use Cases umzusetzen.

Nach kürzester Zeit verfügte unser Kunde über eine hochmoderne Datenplattform, die eine vollautomatisierte und in Echtzeit erfolgende Datenverarbeitung ermöglicht.

Die auf Databricks und AWS basierte Plattform, die auf den neuesten Sicherheitsstandards basiert, macht Daten für alle relevanten Mitarbeiter zugänglich und vereinfacht die Datenverwaltung erheblich.

Die Implementierung erfolgte durch ein Projektteam aus lediglich zwei Personen. Darüber hinaus führte die Schulung der Mitarbeiter im Umgang mit dem neuen System zu einer weiteren Optimierung der Arbeitsabläufe bei unserem Kunden.

Wie gehen wir dabei vor?

1.

Planung

Ziele und Anforderungen definieren, Stakeholder einbinden, Technologie und Architektur auswählen.

2.

Implementierung

Dateninfrastruktur vorbereiten, Funktionalitäten entwickeln, Automatisierung und Integration sicherstellen.

3.

Optimierung

Testen, Monitoring implementieren, Feedback einholen, kontinuierliche Optimierung, Dokumentation und Schulung.

Testimonial

"Wir waren in hohem Maße von Dienstleistern für unser DWH, unsere PowerBi-Berichte und KI-Scores abhängig, was zu hohen Kosten und organisatorischen Herausforderungen führte. Datasolut begleitete uns bei der Umstellung auf eine technisch überlegene Lösung und ersetzte unser On-Premise MS SQL Data Warehouse mit einem Databricks Lakehouse. Ihr Fachwissen ermöglichte es uns, PowerBi-Berichte zu optimieren und verschiedene KI-Use Cases umzusetzen."
Daniel Brügge
UDO BÄR GmbH
Head of IT

Wie wird die Databricks implementiert?

Die Implementierung erfolgte in enger Abstimmung mit unserem Kunden, wobei spezifische Anforderungen hinsichtlich Gruppen, Rechten und Rechenressourcen geklärt wurden. Das bestehende On-Premise Data Warehouse (DWH) bestand zu diesem Zeitpunkt aus ca. 80 Tabellen und 50 Views.

Im ersten Schritt haben wir das bestehende DWH mit Databricks verbunden, um ein tägliches Laden der wichtigsten Fakten- und Dimensionstabellen zu gewährleisten. Zusätzlich integrierten wir Google Analytics über Fivetran und weitere Datenquellen aus verschiedenen Quellsystemen, um eine umfassende Datennutzung zu ermöglichen.

Im zweiten Schritt haben wir die Daten in Databricks überführt. Innerhalb von nur 1 Woche konnten wir die gesamte Datenplattform vollständig laden. Dabei wurden alle relevanten Datentypen wie Kundendaten, Transaktionsdaten und Produktdaten erfolgreich integri

Durch die Anwendung der Best Practices von Databricks entstand ein maßgeschneiderter Arbeitsbereich, der eine effiziente Strukturierung und Zugriffsverwaltung für die Mitarbeiter des B2B-Händlers ermöglichte. Innerhalb von nur wenigen Wochen wurde eine einsatzbereite Daten- und KI-Plattform bereitgestellt, die den Anforderungen unseres Kunden entsprach.

Langfristig ist geplant, das bestehende DWH vollständig durch Databricks zu ersetzen, was weitere Kosteneinsparungen und mehr Flexibilität verspricht.

Durch die Einführung der Datenplattform konnte unser Kunde seine Effizienz in der Datenverarbeitung deutlich steigern, was eine schnellere und kostengünstigere Umsetzung von Machine-Learning-Projekten ermöglicht.

Diese Ergebnisse konnten wir erzielen:

Single Source of Truth

Durch die zentrale Speicherung aller Daten auf einer Plattform ist es allen relevanten Mitarbeitern möglich, gemeinsam an Daten zu arbeiten. Fehler in der Datenverarbeitungen werden dadurch drastisch reduziert.

Hohe Sicherheitsstandards

Die Daten werden mit ACID-Compliance und nach den höchsten Sicherheitsstandards gesichert.

Vollautomatisierte Datenverarbeitung

Die Datenplattform ermöglicht das Arbeiten an verschiedenen Machine Learning Use Cases und spart dabei die Kosten für eine manuelle Datenverarbeitung und -verwaltung.

Was ermöglicht die Daten- und KI-Plattform? 

  • Reduktion manueller Prozesse und Kosten
  • Einheitliche Datengrundlage und Data Governance
  • Skalierung und Umsetzung zukünftiger ML-Use Cases

Dieser Artikel hat Sie inspiriert, auch mit einer individuellen Daten- und KI-Plattform zu arbeiten? Dann kontaktieren Sie uns!

Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Ihr Ansprechpartner

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren