Machine Learning Feature Store in der Telekommunikationsbranche

Machine Learning Projekte sind komplex und häufig sehr aufwändig. Das liegt insbesondere an der aufwändigen Datenvorverarbeitung. Eine Herausforderung besteht darin, die Daten einheitlich und qualitätsgesichert zu speichern sowie die Bereitstellung an die unterschiedlichsten Data Scientists. 

Aus diesem Grund ist der Einsatz eines Machine Learning Feature Stores ein zentraler Teil jeder Data Science Plattform.  

Welche Prozesse der Einsatz eines Feature Stores strukturiert und was die zahlreichen Vorteile eines solchen ML Feature Stores sind, erfahren Sie im folgenden KI-Anwendungsfall.  

In diesem Beispiel aus der Praxis präsentieren wir Ihnen, wie wir für ein Telekommunikationsunternehmen einen Machine Learning Feature Store implementieren, Machine Learning skalierbar machen und so das Data Science Team erfolgreich entlasten. 

Eine Machine-Learning-Infrastruktur ohne Feature Store 

Zahlreiche KI-basierte Prognosen unterstützen bereits die Prozesse im Marketing und Vertrieb des Telekommunikationsunternehmens. Die Vorhersagen ermöglichen es zukünftige Ereignisse, wie z.B. Tarifwechsel anhand von Daten aus der Vergangenheit einschätzen zu können.  

Unter anderem können somit Vertragskündigungen, Abschlussaffinitäten oder auch Aufkommen in den Kundenanfragen besser eingeschätzt werden.  

Der Outcome ist erfolgsversprechend, allerdings ist der Prozess der Entwicklung solcher Prognose-Tools nicht einfach.  

Das liegt insbesondere daran, dass ein KI-System sehr komplex ist und einen hohen manuellen Aufwand erfordert. Das Data Science Team steht vor der Herausforderung, verschiedene Datenquellen zur Verfügung zu stellen, Metadaten zu verwalten, und Datenquellen zu tracken. Am Ende des Tages ist das Data Science Team eher damit beschäftigt, die Daten halbwegs vernünftig zu screenen, als mit dem Modelltraining an sich.  

Abgesehen davon, dass viel wertvolle Zeit bei der Datenaufbereitung verloren geht, sind die Projekte und Anwendungen des maschinellen Lernens teuer und schwer skalierbar. Das liegt unter anderem an der Datenqualität und an den langen Entwicklungszyklen. 

In folgender Grafik aus dem Research Paper „The Hidden Technical Debt Of Machine Learning Systems“ ist zu sehen, wie viel Zeit für die jeweiligen Schritte der Entwicklung eines ML-Systems benötigt wird. Deutlich zu erkennen: für den eigentlichen ML Code – das Herzstück des Prozesses – wird am wenigsten Zeit verwendet.  

Only a small fraction of real-world ML systems is composed of the ML code, as shown
by the small black box in the middle. The required surrounding infrastructure is vast and complex.
Figure 1: Only a small fraction of real-world ML systems is composed of the ML code, as shown
by the small black box in the middle. The required surrounding infrastructure is vast and complex.(Quelle Google)

Um diese Komplexität noch näher zu veranschaulichen zeigt die nächste Grafik die ML-Infrastruktur. An dieser erkennt man, dass die Features unstandardisiert und somit wenig skalierbar vorliegen. 

Die unterschiedlichen Modelle greifen auf die gleichen Datenquellen zu, so dass für jeden Anwendungsfall eine individuelle Datenaufbereitung stattfindet. Somit fließt ein hoher Aufwand in die Aufbereitung der Daten, und Programmcodes werden doppelt geführt – ein enormes Potential für Fehler. 

Machine-Learning-Infrastruktur ohne Feature Store.
Machine-Learning-Infrastruktur ohne Feature Store. (Quelle: In Anlehnung an Logical Clocks 2018)

Die Probleme und Herausforderungen im kurzen Überblick: 

  • Unterschiedliche Modelle greifen auf gleiche Datenquelle zu 
  • Hoher Aufwand für die Aufbereitung von Daten 
  • Doppelte Programmcodes 
  • Hoher manueller Aufwand  

Um in Zukunft strukturierte Daten vorliegen zu haben, das Data Science Team effektiv zu entlasten, und die Übersichtlichkeit der Projekte zu wahren, entwickeln wir einen Machine Learning Feature Store.  

Wie funktioniert der Feature Store? 

Damit die Projekte im Umgang mit Data Science weiterhin übersichtlich bleiben, bot es sich an, einen einheitlichen Machine Learning Feature Store zu entwickeln. Dadurch ließen sich täglich 800 hochqualitative Features identifizieren.

Angetrieben von den bereits beschriebenen Problemen, entwickeln wir einen Feature Store für das Telekommunikationsunternehmen. Wir setzen zentrale Datenspeicher für Lerndaten ein, um eine optimale Skalierbarkeit zu erreichen und somit die Effizienz von ML-Anwendungen zu steigern.  

Der Feature Store dient als zentraler Datenspeicher, mit dem Zweck, Daten und Features zu verwalten, die während dem Data Science Prozess aufbereitet werden. In diesem Datenspeicher stellen Data Science Mitarbeiter die kuratierten Daten Verfügung. 

Die Verwendung des Feature Stores hat nicht nur Vorteile im Team intern (bessere Koordination und effektives Zeitmanagement), sondern auch im Punkt Qualität. Durch die Sicherung der Features in dem Store, wird der Prozess des Modell-Deployment standardisiert, denn hier verwenden wir die gleiche Logik, wie im Lernprozess, so dass eine konsistente Plattform entsteht. 

Anhand folgender Grafik ist zu erkennen, dass die Features durch den Feature Store nun strukturiert vorliegen – unabhängig von den Modellen. 

Machine-Learning-Infrastruktur mit Unterstützung eines Feature Stores.
Machine-Learning-Infrastruktur mit Unterstützung eines Feature Stores. (Quelle: In Anlehnung an Logical Clocks 2018)

Das ermöglicht unter anderem:

  1. Die Qualitätssicherung von Features 
  2. Den effizienten Einsatz von Data Scientists: Zeit kann signifikant reduziert werden 
  3. Einen hohen Grad der Automatisierung von ML: Automatisierung von Validierungsprozessen (kann auch zu automatischem Re-Training führen) 
  4. Das Entstehen eines zentralen Hubs für ML: Zentralisierung der ML Datenbasis –> Effizienz des Teams wird verbessert –> Probleme wie unübersichtliche Codeskripts und Data-Pipeline Jungle werden vermieden 
  5. Die Skalierbarkeit von Data Science: Neue Projekte und Modelle können schneller skaliert und umgesetzt werden, denn Daten, Infrastruktur und standardisierte Prozesse sind bereits vorhanden
  6. Das Eliminieren des Großteils an manueller Arbeit

Ein Beispiel für Features: Folgende Tabelle zeigt einen Flatfile mit Features, die für die Telekommunikationsbranche verwendet wurden. 

Zielvariablen 
Wechsel in Produkt x 
1=Kunde hat gewechselt 2=Kunde hat nicht gewechselt 
Kundenstammdaten 
Geburtsdatum 
Geschlecht 
Tage seit Anlage 

Alter des Kunden zum Stichtag 
Geschlecht des Kunden 
Tage seit Anlage des Kunden 
Transaktionshistorie 
Anzahl aktive Verträge und Optionen Vertragsalter (bestehender Vertrag) 
Umsatz nach Zeitperiode 
Rabatte nach Zeitperiode 
Nutzungsentgelte nach Zeitperiode Veränderung Nutzungsgelte zum Vormonat  

Endgeräte-Flag 
Hersteller des genutzten Endgerätes 
Tage seit Letztkauf 
Gebuchtes Datenvolumen 
Zusätzlich gebuchtes Datenvolumen 
Verbrauchtes Datenvolumen nach Zeitperiode 
Anzahl aktiver Verträge zum Stichtag 
Alter des Vertrags in Monaten 
Nettoumsatz z.B. letzte 1/3/6 Monate 
Rabatte z.B. letzte 1/3/6 Monate 
Nutzungsentgelte z.B. letzte 1/3/6 M. 
Veränderung Nutzungsgelte im Vergleich zum Vormonat 

Vertrag in Kombination mit Handy gekauft? 
Herstellername des Endgerätes 
Tage seit letzter Bestellung v. Kunde 
Monatl. Verfügbares Datenvolumen 
Zusätzl. Datenvolumen letzte 1/3/6 Monate 
Verbr. Datenvolumen letzte 1/3/6 Monate 
Verhaltensdaten aus Website und mobiler App 
Anzahl Sessions nach Zeitperiode  
Anzahl Besuche nach Produktdetailseiten und Zeitperiode 
Anzahl Warenkörbe nach Zeitperiode 


Anzahl Sessions innerhalb der letzten 30/90/180 Tage Anzahl Besuche innerhalb der letzten 30/90/180 Tage 
Anzahl Warenkörbe innerhalb der letzten 30/90/180 Tage 
Flatfile mit Features für die Telekommunikationsbranche

Effizienz- und Qualitätssteigerung durch den ML Feature Store 

Unser Ziel war es, mit dem Feature Store ein System zu implementieren, welches das Data Science Team entlastet. Darüber hinaus wollten wir, dass das System die Features so speichert, dass ein strukturiertes, standardisiertes und automatisiertes Arbeiten mit den Datenquellen möglich ist. 

Das Ergebnis waren rund 800 hochqualitative Features – und das täglich. Abgesehen von diesem Erfolgserlebnis konnte die Effizienz des Data Science Teams massiv gesteigert werden, da der Feature Store nicht nur für besseres, sondern auch für schnelleres arbeiten sorgt. 

Nach der Implementierung des Feature Stores konnte außerdem eine Senkung der Ausgaben für neue Data Science Projekte verzeichnet werden. Wie in folgender Grafik zu sehen, wird durch das Speichern der Daten im Feature Store, die Anzahl der Features über die Zeit erhöht und die Kosten für neue Data Science Projekte gesenkt.

Kostenreduktion in Data Science Projekten durch einen ML Feature Store.
Kostenreduktion in Data Science Projekten durch einen ML Feature Store.

Wir können schlussfolgern: Machine Learning Feature Stores adressieren viele Probleme von Data Science Projekten und schaffen durch die Automatisierung, die sie mit sich bringen, eine große Steigerung der Effizienz.  Um das Data Science Team weiter zu entlasten, empfiehlt es sich das Data Engineering Team zu stärken, oder eines einzuführen. Bei unserer Data Engineering Beratung begleiten wir Sie bei jedem Schritt.

Sie möchten gerne mehr über die Funktionsweise von Machine Learning Feature Stores erfahren? Dann haben wir hier einen spannenden Beitrag für Sie vorbereitet.

Der Beitrag hat Sie inspiriert, ebenfalls mit einem ML Feature Store zu arbeiten? Dann nehmen Sie gerne Kontakt zu uns auf!

Ihr Kontakt: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Weitere KI Use Cases

Interessante Blogbeiträge