Machine Learning Feature Store für Data Science

Ein Machine Learning Feature Store ist ein zentraler Datenspeicher speziell für Data Science Prozesse. Projekte und Anwendungen des maschinellen Lernens sind oft teuer und schwer Skalierbar. Um die Effizienz und Skalierbarkeit von maschinellem Lernen zu steigern, kommen diese zentralen Datenspeicher für Lerndaten zum Einsatz.

  1. Herausforderungen von maschinellem Lernen und Data Science
  2. Was ist ein Machine Learning Feature Store?
  3. Vorteile von ML Feature Stores
  4. Fazit ML Feature Store

Herausforderungen von maschinellem Lernen und Data Science

Machinelles Lernen, Data Science und künstliche Intelligenz sind die absoluten Hype-Themen unserer Unternehmenswelt. Analytisch gestützte Prozesse versprechen höhere Umsätze und mehr Prozesseffizienz. Oft steht vor allem der Algorithmus im Fokus und nicht selten wird vergessen, dass der Großteil der Arbeit in der Datenaufbereitung liegt. Um die Effizienz sowie Skalierbarkeit von Data Science und künstlicher Intelligenz zu steigern, kommen Machine Learning Feature Stores zum Einsatz.

Die Datenaufbereitung und -management für maschinelles Lernen ist eine der zeitintensivsten Aufgaben in Data Science Projekten. In dem Research Paper „The Hidden Technical Debt Of Machine Learning Systems“ legt Google dar, welche technischen Anforderungen Machine Learning Systeme mit sich bringen. Die folgende Grafik aus der Studie visualisiert anteilig die Zeit, die für Machine Learning Projekt auf die einzelnen Tasks aufgeteilt wird.

Quelle Google

Deutlich zu sehen ist, dass der eigentliche Algorithmus (ML Code) nur einen Bruchteil der Projektzeit ausmacht. Also wie kann man diese Prozesse rund um künstliche Intelligenz für Unternehmen effizienter gestalten? Die Antwort sind Machine Learning Feature Stores.

Was ist ein Machine Learning Feature Store?

Ein Machine Learning Feature Store ist ein zentraler Datenspeicher, der spezielle für den Data Science Prozess, aufbereitete Daten und Features verwaltet. Ein ML Feature Store ist ein wichtiger Bestandteil einer Data Science Plattform.

Die einzelnen Variablen für maschinelles Lernen sind in einem standardisierten, qualitätsgesicherten Prozess abgespeichert. Dadurch wird ein zentraler Punkt für Machine Learning-Features geschaffen, wo jedes Data Science Team kuratierte Daten zur Verfügung hat. Neben vielen Vorteilen für die Modelltrainings, wird ein standardisierter Prozess für das Modell Deployment erarbeitet, der die gleiche Feature Logik wie im Lernprozess nutzt und somit eine konsistente Plattform schafft.

Machine Learning Feature Stores adressieren viele Probleme von Data Science Projekten und schaffen somit große Effizienzen. Besonders bei größeren Projekten, wo ein hoher Automatisierungsgrad erreicht werden soll.

Große Tech-Firmen wie Google (TFX), Uber (Michelangelo) und Facebook (FBLearner) haben die Vorteile für sich erkannt und setzten auf solche Ansätze der Machine Learning Plattformen. Ein interessanter Podcast aus der O’Reilly Data Show beleuchtet genau um dieses Thema bei Salesforce (Einstein). Und kürzlich haben auch Netflix und Twitter ihre Plattformen bekanntgegeben. Neben diesen Projekten gibt es mittlerweile auch einen ersten Open Source Ansatz von des StartUps Logical Clocks, welches Big Data, Deep Learning und Machine Learning Plattformen entwickelt. Es wird also schnell klar, dass viel Geld und Ressourcen in die Entwicklung und Aufbau die Machine Learning Plattformen fließen.

Uber Michelangelo Feature Store
Michelangelo Ubers Machine Learning Platform

Uber gibt an, dass täglich bis zu 10.000 Features komplett automatisiert berechnet und bereitgestellt werden.

Im Folgenden gehe ich auf einige Vorteile von Feature Stores eingehen.

Vorteile von ML Feature Stores

#1 Qualitätssicherung von Features

Qualitätsgesicherte ETL-Prozesse und Loggingfunktionen sorgen für eine hohe Qualität und Konsistenz der Machine Learning Features. So können diese Daten von Analysten verlässlich in analytische Prozesse eingebunden werden und sorgen für einen Mehrwert im Unternehmen.

Oft werden Data Science Projekte von einzelnen Teams absolviert, die Ihre eigenen Prozesse aufsetzen und dabei auch ihre eigenen Features berechnen. Wenn man hier die ersten Schritte gegangen ist und erfolgreich Data Science Projekte in Produktion gebracht hat, sollte man über einen ganzheitlicheren Ansatz von Feature Engineering in einem Feature Store nachdenken.

#2 Effizienter Einsatz von Data Scientists

Data Science ist am Markt wohl einer der gefragtesten Jobprofile die es im Moment gibt. IBM beschreibt in einer Studie, dass die Nachfrage nach Data Science Experten bis 2020 um 15% ansteigt.

Was liegt also näher, als das bestehende Personal effizient einzusetzen? Wir wissen ja auch, dass ca. 80% der Zeit bei Data Science Projekten für Datenaufbereitung anfallen. Durch den Einsatz von einem gut konzipiertem Feature Store, kann diese Zeit signifikant reduziert werden. So können die teuren Data Scientists sich intensiver mit der Modellierung der Modelle beschäftigen.

#3 Grad der Automatisierung von Machine Learning

Machnine Learning ist ein sehr zeitintensiver und teils manueller Prozess. Wie die Google Studie zeigt ist ein Großteil der Arbeit nicht die eigentliche Modellierung des Machine Learning Algorithmus, sondern viele technische Prozesse.

Hier kann ein Feature Store, als Herzstück einer Data Science Plattform, einen hohen Mehrwert generieren. Durch die Automatisierung von Validierungsprozessen auf, die immer bereitstehenden Features, können Machine Learning Modelle leicht in Bezug auf Qualität bewertet werden. Dies kann sogar soweit führen, dass ganz automatisch ein Re-Training des Modells auf einem neuen Datenstand durchgeführt wird.

#4 Zentraler Hub für Machine Learning

Ein sehr wichtiger Punkt für einen Feature Store ist die Zentralisierung der Machine Learning Datenbasis. Besonders aus in Bezug auf die Effizienz eines Teams macht es Sinn, das Know-How und die Logik für die Aufbereitung von Features zentral zu steuern. Dadurch werden Probleme wie unübersichtliche Codeskripts und Data-Pipeline Jungle vermieden.

#5 Skalierbarkeit von Data Science

Durch die Zentralisierung der ML Features, können neue Projekte und Modelle schneller skaliert und umgesetzt werden, denn die Daten, Infrastruktur und standardisierte Prozesse sind dann bereits vorhanden. Oft ist der limitierende Faktor, die Anzahl der Data Science Analysten im Haus, die allerdings sehr schwer zu Skalieren sind. Um von der Skalierbarkeit und einem Skaleneffekt zu profitieren, ist ein Feature Store sehr gut geeignet, da dieser viel manuelle Arbeit eliminiert.

Kostenreduktion Data Science Projekte durch ML Feature Store
Kostenreduktion in Data Science Projekten durch einen ML Feature Store

Auch für die Entwicklung und das Testing neuer Ansätze, ist der Feature Store eine tolle Umgebung. Bei der Entwicklung können hier weitere Tools wie bspw. MLFlow genutzt werden, wo Modellparameter und Daten getrackt werden, die in das Modell einfließen.

Fazit ML Feature Store

Feature Stores eröffnen für Unternehmen neue Möglichkeiten das Thema Data Science professioneller und effizienter in auf einer zentralen Plattform zu gestalten. Die vielen Vorteile die sich dadurch ergeben, übertreffen die anfänglich größeren Kosten schnell. 

Eine Herausforderung und zu gleich Chance sind neue Technologien, die dafür in den Einsatz kommen. Oft werden solche Ansätze auf größere Big Data Plattformen umgesetzt, da Technologien wie Apache Spark und Hadoop in der Lage sind mit der Masse von Features umzugehen.


Weitere interessante Artikel:

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Laurenz Wuttke datasolut Gmbh
Ich freue mich, wenn Sie sich zu unserem Newsletter anmelden.

Jetzt zum Newsletter anmelden!

Ihr Mehrwert:

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.

KI-im-CRM Kopie

Whitepaper:
Wie künstliche Intelligenz das CRM verändert!

Trage deine E-Mail-Adresse ein, um die KI-Fallstudien zu erhalten: