Daten- und KI-Plattform in Databricks

Mit über 5.000 Mitarbeitern und mehr als 150.000 Vertragskunden nimmt unser Kunde eine führende Position in der deutschen Textilindustrie ein. Trotz seiner starken Marktpräsenz sah sich das Unternehmen mit erheblichen Herausforderungen im Datenmanagement konfrontiert. Die Implementierung von Machine Learning Use Cases stellte eine große Herausforderung dar.

Um die Herausforderungen zu lösen bauten wir eine Lakehouse-Plattform in Databricks auf, in der zentral alle Machine Learning- und Business Intelligence-Anwendungen abgebildet werden. Das Ergebnis sind maximale Effizienz und Umsetzungsgeschwindigkeit im Datenmanagement.

Auf einen Blick:

  • Branche: Textil-Management
  • Projektziel: Aufbau einer zentralen Daten- und KI-Plattform in Databricks, die als Single Source of Truth dient und die Effizienz für neue ML-Projekte verbessert
  • Technologien: Databricks Lakehouse-Plattform, AWS-Cloud, CI/CD, Ingestion- und Unit-Tests, Feature Store
  • Dauer: 6 Monate

Herausforderungen unseres Kunden

Die größte Herausforderung stellten ineffiziente Datenmanagementprozesse dar. Informationen über mehr als 150.000 Vertragskunden boten ein enormes ungenutztes Potenzial zur Verbesserung von Marketing- und Vertriebsmaßnahmen. Diese Daten wurden in Quellsystemen erfasst und mit hohem Zeitaufwand manuell aufbereitet. Insgesamt waren 10 IT-Mitarbeiter mit der Datenaufbereitung beschäftigt. Mit effizienten Prozessen hätten in einem Bruchteil der Zeit wertvolle Erkenntnisse aus den Daten gewonnen werden können.

Unser Ziel war es, eine fortschrittliche Machine-Learning-Plattform auf Databricks zu entwickeln. Diese sollte es ermöglichen, zukünftige Machine Learning und Business Intelligence Projekte effizient und reproduzierbar durchzuführen.

Vor diesen Herausforderungen stand unser Kunde

Ineffiziente Datenverwaltungsprozesse

Die bestehenden Datenmanagementprozesse waren ineffizient und führten zu einem hohen Zeit- und Ressourcenaufwand, da Informationen zu über 150.000 Vertragskunden manuell bearbeitet werden mussten.

Ungenutztes Potenzial der Kundendaten

Trotz des enormen Potenzials der vorhandenen Kundendaten konnten keine wertvollen Erkenntnisse zur Verbesserung der Unternehmensprozesse gewonnen werden, da die Daten in diversen Quellsystemen erfasst und nicht effektiv genutzt wurden.

Ressourcenintensive Datenaufbereitung

Insgesamt 10 IT-Mitarbeiter waren mit der manuellen Datenaufbereitung beschäftigt, was die Effizienz und die Möglichkeit, schnell verwertbare Erkenntnisse aus den Daten zu gewinnen, erheblich beeinträchtigte.

Schritt-für-Schritt-Implementierung des Data Lakehouse

Gemeinsam mit unserem Kunden haben wir in einem ersten Schritt die konkreten Herausforderungen und möglichen Lösungsansätze identifiziert. Darauf aufbauend entwickelte das Datasolut-Team eine einheitliche Datenarchitektur auf Databricks in der AWS-Cloud. Die Lakehouse-Architektur verbindet die Vorteile eines Data Lakes mit denen eines Data Warehouses und ermöglicht die effiziente Umsetzung von ML-Projekten mit einer einheitlichen Governance (Unity Catalog).

Die Zusammenarbeit lässt sich in 3 wesentliche Phasen gliedern:

1.

Aufbau der Datenpipeline

Automatische Datenspeicherung und -transformation: Gewährleistung einer sauberen, einheitlichen Datenintegration in Databricks.

Continuous Integration/Continuous Deployment (CI/CD) & Unit-Tests: Sicherstellung einer hochwertigen Datenverarbeitung und Modellentwicklung.

2.

Machine Learning- und Business Intelligence-Pipeline

Implementierung gemäß Best Practice-Standards: Hoher Automatisierungsgrad bei der Modellvalidierung zur optimalen Umsetzung von Machine Learning-Projekten.

3.

Weiterbildung und Unterstützung der Mitarbeiter

Umfassende Schulungen und Mentoring: Befähigung des internen Data Science Teams, das neue System effektiv zu nutzen und die ersten Projekte im Bereich der Künstlichen Intelligenz umzusetzen.

Die Ergebnisse unseres Kunden

In nur 2,5 Monaten konnten wir das transformative Projekt erfolgreich abschließen, mit folgenden Ergebnissen:

 

Automatische Datenintegration

Nahtlose Einbindung der Daten von über 150.000 Vertragspartnern in den Feature Store für Machine Learning- und Business Intelligence-Projekte.




Zweite Pipeline für validierte Modelle

Aufbau einer zusätzlichen Pipeline zur Erstellung und Verwaltung validierter Machine Learning-Modelle.

Sofortiger Start von 2 Machine-Learning-Projekten

Sofortiger Start von zwei ML-Projekten, um nach der Implementierung eine genaue Vorhersage von Kundentrends zu ermöglichen.




Welche Probleme löst ein Data Lakehouse?

  • Ineffizientes Datenmanagement
  • Fehlende strategische Nutzung vorhandener Daten
  • Fehlende Innovationsbasis für zukünftige Projekte

Sie möchten eine Data Lakehouse Plattform aufbauen? Kontaktieren Sie uns!

Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Ihr Ansprechpartner

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren