Machine Learning Feature Stores für Data Science Plattformen

Ein Machine Learning Feature Store ist ein zentraler Datenspeicher speziell für Data Science Prozesse. Projekte und Anwendungen des maschinellen Lernens sind oft teuer und schwer Skalierbar. Um die Effizienz und Skalierbarkeit von maschinellem Lernen zu steigern, kommen diese zentralen Datenspeicher für Lerndaten zum Einsatz.

Herausforderungen von maschinellem Lernen und Data Science

Machinelles Lernen, Data Science und künstliche Intelligenz sind die absoluten Hype-Themen unserer Unternehmenswelt. Analytisch gestützte Prozesse versprechen höhere Umsätze und mehr Prozesseffizienz. Oft steht vor allem der Algorithmus im Fokus und nicht selten wird vergessen, dass der Großteil der Arbeit in der Datenaufbereitung liegt. Um die Effizenz sowie Skalierbarkeit von Data Science und künstlicher Intelligenz zu steigern, kommen Machine Learning Feature Stores zum Einsatz.

Die Datenaufbereitung und -management für maschinelles Lernen ist eine der zeitintensivsten Aufgaben in Data Science Projekten. In dem Research Paper “The Hidden Technical Debt Of Machine Learning Systems” legt Google dar, welche technischen Anforderungen Machine Learning Systeme mit sich bringen. Die folgende Grafik aus der Studie visualisiert anteilig die Zeit, die für Machine Learning Projekt auf die einzelnen Task aufgeteilt wird.

Quelle Google

Deutlich zusehen ist, das die eigentliche Algorithmus (ML Code) nur einen Bruchteil der Projektzeit ausmacht. Also wie kann man diese Prozesse rund um künstliche Intelligenz für Unternehmen effizienter gestalten? Die Antwort sind Machine Learning Feature Stores.

Was ist ein Machine Learning Feature Store?

Ein Machine Learning Feature Store ist ein zentraler Datenspreicher, der spezielle für für den Data Science Prozess, aufbereitete Daten und Features verwaltet. Ein ML Feature Store ist ein wichtiger Bestandteil einer Data Science Plattform.

Die einzelnen Variablen für maschinelles Lernen sind in einem standardisierten, qualitätsgesicherten Prozess abgespeichert. Dadurch wird ein zentraler Punkt für Machine Learning-Features geschaffen, wo jedes Data Science Team kuratierte Daten zur Verfügung hat. Neben vielen Vorteilen für die Modelltrainings, wird ein standardisierter Prozess für das Modell Deployment erarbeitet, der die gleiche Featurelogik wie im Lernprozess nutzt und somit eine konsistente Plattform schafft.

Machine Learning Feature Stores adressieren viele Probleme von Data Science Projekten und schaffen somit große Effizienzen. Besonders bei größeren Projekten, wo ein hoher Automatisierungsgrad erreicht werden soll.

Große Tech-Firmen wie Google (TFX), Uber (Michelangelo) und Facebook (FBLearner) haben die Vorteile für sich erkannt und setzten auf solche Ansätze der Machine Learning Plattformen. Ein interessanter Podcast aus der O’Reilly Data Show beleuchtet genau um dieses Thema bei Salesforce (Einstein). Und kürzlich haben auch Netflix und Twitter ihre Plattformen bekanntgegben. Neben diesen Projekten gibt es mittlerweile auch einen ersten Open Source Ansatz von des StartUps Logical Clocks, welches Big Data, Deep Learning und Machine Learning Platformen entwickelt. Es wird also schnell klar, dass viel Geld und Ressourcen in die Entwicklung und Aufbau die Machine Learning Plattformen fließen.

Uber Michelangelo Feature Store
Michelangelo Ubers Machine Learning Platform

Uber gibt an, dass täglich bis zu 10.000 Features komplett automatisiert berechnet und bereitgestellt werden.

Im Folgenden gehe ich auf einige Vorteile von Feature Stores eingehen.

Vorteile von ML Feature Stores

#1 Qualitätssicherung von Features

Qualitätsgesicherte ETL-Prozesse und Loggingfunktionen sorgen für eine hohe Qualität und Konsistenz der Machine Learning Features. So können diese Daten von Analysten verlässlich in analytische Prozesse eingebunden werden und sorgen für einen Mehrwert im Unternehmen.

Oft werden Data Science Projekte von einzelnen Teams absolviert, die Ihre eigenen Prozesse aufsetzen und dabei auch ihre eigenen Features berechnen. Wenn man hier die ersten Schritte gegangen ist und erfolgreich Data Science Projekte in Produktion gebracht hat, sollte man über einen ganzheitlicheren Ansatz von Feature Engineering in einem Feature Store nachdenken.

#2 Effizienter Einsatz von Data Scientists

Data Science ist am Markt wohl einer der gefragtesten Jobprofile die es im Moment gibt. IBM beschreibt in einer Studie, dass die Nachfrage nach Data Science Experten bis 2020 um 15% ansteigt.

Was liegt also näher, als das bestehende Personal effizient einzusetzen? Wir wissen ja auch, dass ca. 80% der Zeit bei Data Science Projekten für Datenaufbereitung anfallen. Durch den Einsatz von einem gut konzipiertem Feature Store, kann diese Zeit signifikant reduziert werden. So können die teuren Data Scientists sich intensiver mit der Modellierung der Modelle beschäftigen.

#3 Grad der Automatisierung von Machine Leaning

Machnine Learning ist ein sehr zeitintensiver und teils manueller Prozess. Wie die Google Studie zeigt ist ein Großteil der Arbeit nicht die eigentliche Modellierung des Machine Learning Algorithmus, sondern viele technische Prozesse.

Hier kann ein Feature Store, als Herzstück einer Data Science Plattform, einen hohen Mehrwert generieren. Durch die Automatisierung von Validierungsprozessen auf, die immer bereitstehenden Features, können Machine Learning Modelle leicht in Bezug auf Qualität bewertet werden. Dies kann sogar soweit führen, dass ganz automatisch ein Re-Training des Modells auf einem neuen Datenstand durchgeführt wird.

#4 Zentraler Hub für Machine Learning

Ein sehr wichtiger Punkt für einen Feature Store ist die Zentralisierung der Machine Learning Datenbasis. Besonders aus in Bezug auf die Effizienz eines Teams macht es Sinn, das Know-How und die Logik für die Aufbereitung von Features zentral zu steuern. Dadurch werden Probleme wie unübersichtliche Codeskripts und Data-Pipeline Jungle vermieden.

#5 Skalierbarkeit von Data Science

Durch die Zentralisierung der ML Features, können neue Projekte und Modelle schneller skaliert und umgesetzt werden, denn die Daten, Infrastruktur und standardisierte Prozesse sind dann bereits vorhanden. Oft ist der limitierende Faktor, die Anzahl der Data Science Analysten im Haus, die alllerdings sehr schwer zu Skalieren sind. Um von der Skalierbarkeit und einem Skaleneffekt zu profitieren, ist ein ein Feature Store sehr gut geignet, da dieser viel maunelle Arbeit eliminiert.

Kostenreduktion Data Science Projekte durch ML Feature Store
Kostenreduktion in Data Science Projekten durch einen ML Feature Store

Auch für die Entwicklung und das Testing neuer Ansätze, ist der Feature Store eine tolle Umgebung. Bei der Entwicklung können hier weitere Tools wie bspw. MLFlow genutzt werden, wo Modellparameter und Daten getrackt werden, die in das Modell einfließen.

Fazit ML Feature Store

Feature Stores eröffnen für Unternehmen neue Möglichkeiten das Thema Data Science professioneller und effizienter in auf einer zentralen Plattform zu gestalten. Die vielen Vorteile die sich dadurch ergeben, übertreffen die anfänglich größeren Kosten schnell. 

Eine Herausforderung und zu gleich Chance sind neue Technologien, die da für in den Einsatz kommen. Oft werden solche Ansätze auf größere Big Data Plattformen umgesetzt, da Technologien wie Apache Spark und Hadoop in der Lage sind mit der Masse von Features umzugehen.


Weitere interessante Artikel:

Ihr Ansprechparnter: Laurenz Wuttke

Wir entwickeln Künstliche Intelligenz, mit der Sie mehr aus Ihren Kundendaten machen – für wachsende Umsätze und eine nachhaltig hohe Kundenzufriedenheit.

Auch interessant für Sie