Ein Machine Learning Feature Store ist ein zentraler Datenspeicher speziell für Data Science Prozesse. Projekte und Anwendungen des maschinellen Lernens sind oft teuer und schwer skalierbar. Um die Effizienz und Skalierbarkeit von maschinellem Lernen zu steigern, kommen diese zentralen Datenspeicher für Lerndaten zum Einsatz.
- Herausforderungen von maschinellem Lernen und Data Science
- Was ist ein Machine Learning Feature Store?
- Vorteile von ML Feature Stores
- Fazit ML Feature Store
Herausforderungen von maschinellem Lernen und Data Science
Machinelles Lernen, Data Science und künstliche Intelligenz sind die absoluten Hype-Themen unserer Unternehmenswelt. Analytisch gestützte Prozesse versprechen höhere Umsätze und mehr Prozesseffizienz. Oft steht vor allem der Algorithmus im Fokus und nicht selten wird vergessen, dass der Großteil der Arbeit in der Datenaufbereitung liegt. Um die Effizienz sowie Skalierbarkeit von Data Science und künstlicher Intelligenz zu steigern, kommen Machine Learning Feature Stores zum Einsatz.
Die Datenaufbereitung und -management für maschinelles Lernen ist eine der zeitintensivsten Aufgaben in Data Science Projekten. In dem Research Paper „The Hidden Technical Debt Of Machine Learning Systems“ legt Google dar, welche technischen Anforderungen Machine Learning Systeme mit sich bringen. Die folgende Grafik aus der Studie visualisiert anteilig die Zeit, die für Machine Learning Projekt auf die einzelnen Tasks aufgeteilt wird.
Deutlich zu sehen ist, dass der eigentliche Algorithmus (ML Code) nur einen Bruchteil der Projektzeit ausmacht. Wie lassen sich somit diese Prozesse rund um künstliche Intelligenz für Unternehmen effizienter gestalten? Die Antwort sind Machine Learning Feature Stores.
Was ist ein Machine Learning Feature Store?
Ein Machine Learning Feature Store ist ein zentraler Datenspeicher, der speziell für den Data Science Prozess aufbereitete Daten und Features verwaltet. Ein ML Feature Store ist ein wichtiger Bestandteil einer Data Science Plattform.
Die einzelnen Variablen für maschinelles Lernen sind in einem standardisierten, qualitätsgesicherten Prozess abgespeichert. Dadurch wird ein zentraler Punkt für Machine Learning-Features geschaffen, wo jedes Data Science Team kuratierte Daten zur Verfügung hat. Neben vielen Vorteilen für die Modelltrainings, wird ein standardisierter Prozess für das Modell Deployment erarbeitet, der die gleiche Feature Logik wie im Lernprozess nutzt und somit eine konsistente Plattform schafft.
Machine Learning Feature Stores adressieren viele Probleme von Data Science Projekten und schaffen somit große Effizienz, vor allem bei größeren Projekten, wo ein hoher Automatisierungsgrad erreicht werden soll.
Große Tech-Firmen wie Google (TFX), Uber (Michelangelo) und Facebook (FBLearner) haben die Vorteile für sich erkannt und setzen auf solche Ansätze der Machine Learning Plattformen. Ein interessanter Podcast aus der O’Reilly Data Show beleuchtet genau dieses Thema bei Salesforce (Einstein). Zudem haben kürzlich auch Netflix und Twitter ihre Plattformen bekanntgegeben. Neben diesen Projekten gibt es mittlerweile auch einen ersten Open Source Ansatz des StartUps Logical Clocks, welches Big Data, Deep Learning und Machine Learning Plattformen entwickelt. Es wird also schnell klar, dass viel Geld und Ressourcen in die Entwicklung und den Aufbau von Machine Learning Plattformen fließen.
Uber gibt an, dass täglich bis zu 10.000 Features komplett automatisiert berechnet und bereitgestellt werden.
Im Folgenden gehe ich auf einige Vorteile von Feature Stores eingehen.
Vorteile von ML Feature Stores
#1 Qualitätssicherung von Features
Qualitätsgesicherte ETL-Prozesse und Loggingfunktionen sorgen für eine hohe Qualität und Konsistenz der Machine Learning Features. So können diese Daten von Analysten verlässlich in analytische Prozesse eingebunden werden und sorgen für einen Mehrwert im Unternehmen.
Oft werden Data Science Projekte von einzelnen Teams absolviert, die Ihre eigenen Prozesse aufsetzen und dabei auch ihre eigenen Features berechnen. Wenn man hier die ersten Schritte gegangen ist und erfolgreich Data Science Projekte in Produktion gebracht hat, sollte man über einen ganzheitlicheren Ansatz von Feature Engineering in einem Feature Store nachdenken.
#2 Effizienter Einsatz von Data Scientists
Data Science ist am Markt wohl einer der gefragtesten Jobprofile die es im Moment gibt. IBM beschreibt in einer Studie, dass die Nachfrage nach Data Science Experten bis 2020 um 15% ansteigt.
Was liegt also näher, als das bestehende Personal effizient einzusetzen? Wir wissen ja auch, dass ca. 80% der Zeit bei Data Science Projekten für Datenaufbereitung anfallen. Durch den Einsatz eines gut konzipiertem Feature Store, kann diese Zeit signifikant reduziert werden. So können sich die teuren Data Scientists intensiver mit der Modellierung der Modelle beschäftigen.
#3 Grad der Automatisierung von Machine Learning
Machine Learning ist ein sehr zeitintensiver und teils manueller Prozess. Wie die Google Studie zeigt, ist ein Großteil der Arbeit nicht die eigentliche Modellierung des Machine Learning Algorithmus, sondern die vielen technischen Prozesse.
Hier kann ein Feature Store, als Herzstück einer Data Science Plattform, einen hohen Mehrwert generieren. Durch die Automatisierung von Validierungsprozessen auf, die immer bereitstehenden Features, können Machine Learning Modelle leicht in Bezug auf Qualität bewertet werden. Dies kann sogar soweit führen, dass völlig automatisiert ein Re-Training des Modells auf einem neuen Datenstand durchgeführt wird.
#4 Zentraler Hub für Machine Learning
Ein sehr wichtiger Punkt für einen Feature Store ist die Zentralisierung der Machine Learning Datenbasis. Besonders in Bezug auf die Effizienz eines Teams macht es Sinn, das Know-How und die Logik für die Aufbereitung von Features zentral zu steuern. Dadurch werden Probleme wie unübersichtliche Codeskripts und Data-Pipeline Jungle vermieden.
#5 Skalierbarkeit von Data Science
Durch die Zentralisierung der ML Features, können neue Projekte und Modelle schneller skaliert und umgesetzt werden, denn die Daten, Infrastruktur und standardisierte Prozesse sind somit bereits vorhanden. Oft ist der limitierende Faktor, die Anzahl der Data Science Analysten im Haus, die allerdings sehr schwer zu skalieren sind. Um von der Skalierbarkeit und einem Skaleneffekt zu profitieren, ist ein Feature Store sehr gut geeignet, da dieser einen Großteil manueller Arbeit eliminiert.
Auch für die Entwicklung und das Testing neuer Ansätze, ist der Feature Store eine tolle Umgebung. Bei der Entwicklung können hier weitere Tools wie bspw. MLFlow genutzt werden, indem Modellparameter und Daten getrackt werden, die schlussendlich in das Modell einfließen.
Fazit ML Feature Store
Feature Stores eröffnen für Unternehmen neue Möglichkeiten das Thema Data Science professioneller und effizienter innerhalb einer zentralen Plattform zu gestalten. Die vielen Vorteile die sich dadurch ergeben, übertreffen die zu Beginn anfallenden Kosten schnell.
Eine Herausforderung und zu gleich Chance sind neue Technologien, die für dieses Vorhaben in den Einsatz kommen. Oft werden solche Ansätze auf größere Big Data Plattformen umgesetzt, da Technologien wie Apache Spark und Hadoop in der Lage sind mit der Masse von Features umzugehen.
Weitere interessante Artikel: