Einrichtung eines Lakehouses in Databricks
Trotz seiner starken Marktposition sah sich das Unternehmen mit großen Herausforderungen im Datenmanagement konfrontiert und die Umsetzung von Machine Learning Use Cases erwies sich als schwierig.
In dieser Case Study haben wir für den Kunden eine Lakehouse Plattform in Databricks aufgebaut, um alle ML und BI Anwendungen zentral in einer Plattform abzubilden und somit die Effizienz und Umsetzungsgeschwindigkeit von Analytics Anwendungen zu beschleunigen.
Auf einen Blick:
- Branche: Handel
- Projektziel: Effizienzsteigerung durch Aufbau einer Lakehouse Plattform in Databricks
- Technologien: Databricks, MLFlow, Unity Catalog, MS SQL, PowerBi, Gitlab
- Dauer: 6 Monate
Zeit- und Ressourcenintensive Datenaufbereitung ohne KI
Mit über 200.000 Produkten für Lager, Betrieb und Büro und Millionen von Kunden ist unser Kunde einer der führenden B2B-Anbieter für Büroausstattung in Europa.
Trotz dieser Erfolge stand unser Kunde vor Herausforderungen in der Datenverarbeitung: Die manuelle Aufbereitung der Daten für externe Berater war zeit- und ressourcenintensiv. Zudem fehlte es an Transparenz bei der Datenverarbeitung durch externe Dienstleister, was den Bedarf nach einer einheitlichen, kontrollierbaren und transparenten Datenplattform aufkommen ließ.
Das primäre Ziel bestand darin, eine einheitliche Datenplattform zu etablieren, um die Automatisierung von Prozessen zu fördern und unseren Kunden zu befähigen, selbstständig Machine Learning Use Cases umzusetzen.
Nach kürzester Zeit verfügte unser Kunde über eine hochmoderne Datenplattform, die eine vollautomatisierte und in Echtzeit erfolgende Datenverarbeitung ermöglicht.
Die auf Databricks und AWS basierte Plattform, die auf den neuesten Sicherheitsstandards basiert, macht Daten für alle relevanten Mitarbeiter zugänglich und vereinfacht die Datenverwaltung erheblich.
Die Implementierung erfolgte durch ein Projektteam aus lediglich zwei Personen. Darüber hinaus führte die Schulung der Mitarbeiter im Umgang mit dem neuen System zu einer weiteren Optimierung der Arbeitsabläufe bei unserem Kunden.
Wie gehen wir dabei vor?
1.
Ziele und Anforderungen definieren, Stakeholder einbinden, Technologie und Architektur auswählen.
2.
Dateninfrastruktur vorbereiten, Funktionalitäten entwickeln, Automatisierung und Integration sicherstellen.
3.
Testen, Monitoring implementieren, Feedback einholen, kontinuierliche Optimierung, Dokumentation und Schulung.
Wie wird die Databricks implementiert?
Die Implementierung erfolgte in enger Abstimmung mit unserem Kunden, wobei spezifische Anforderungen hinsichtlich Gruppen, Rechten und Rechenressourcen geklärt wurden. Das bestehende On-Premise Data Warehouse (DWH) bestand zu diesem Zeitpunkt aus ca. 80 Tabellen und 50 Views.
Im ersten Schritt haben wir das bestehende DWH mit Databricks verbunden, um ein tägliches Laden der wichtigsten Fakten- und Dimensionstabellen zu gewährleisten. Zusätzlich integrierten wir Google Analytics über Fivetran und weitere Datenquellen aus verschiedenen Quellsystemen, um eine umfassende Datennutzung zu ermöglichen.
Im zweiten Schritt haben wir die Daten in Databricks überführt. Innerhalb von nur 1 Woche konnten wir die gesamte Datenplattform vollständig laden. Dabei wurden alle relevanten Datentypen wie Kundendaten, Transaktionsdaten und Produktdaten erfolgreich integri
Durch die Anwendung der Best Practices von Databricks entstand ein maßgeschneiderter Arbeitsbereich, der eine effiziente Strukturierung und Zugriffsverwaltung für die Mitarbeiter des B2B-Händlers ermöglichte. Innerhalb von nur wenigen Wochen wurde eine einsatzbereite Daten- und KI-Plattform bereitgestellt, die den Anforderungen unseres Kunden entsprach.
Langfristig ist geplant, das bestehende DWH vollständig durch Databricks zu ersetzen, was weitere Kosteneinsparungen und mehr Flexibilität verspricht.
Durch die Einführung der Datenplattform konnte unser Kunde seine Effizienz in der Datenverarbeitung deutlich steigern, was eine schnellere und kostengünstigere Umsetzung von Machine-Learning-Projekten ermöglicht.
Was ermöglicht die Daten- und KI-Plattform?
- Reduktion manueller Prozesse und Kosten
- Einheitliche Datengrundlage und Data Governance
- Skalierung und Umsetzung zukünftiger ML-Use Cases
Dieser Artikel hat Sie inspiriert, auch mit einer individuellen Daten- und KI-Plattform zu arbeiten? Dann kontaktieren Sie uns!
Ihr Ansprechpartner
Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.
In diesem Gespräch erfahren Sie:
- Wie Ihr Use-Case technisch am besten umgesetzt werden kann
- Wie wir maximal sicher mit Ihren Kundendaten umgehen
- Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte