Ist Auto ML die Zukunft von Data Science?

automl-plattformen

AutoML ist ein heiß diskutiertes Thema, welches eine enorme Effizienzsteigerung für den Machine Learning Prozess verspricht. Doch wie viel Potnetial steckt in dem automatisierten Machine Learning Ansatz? Wir zeigen Ihnen wie AutoML Ihren ML-Prozess automatisieren kann und welche Vorteile Sie dadurch gewinnen.

Im Machine Learning wird normalerweise akribisch von Data Science Teams basierend auf Erfahrungswerten oder vorherigen explorativen Analysen betrieben. Dieser manuelle Prozess ist langwierig und schwierig, da die Analysten viel Zeit in die Datenaufbereitung sowie in den Test von Modellparametern fließt. Ziel von AutoML ist das automatisierte Erstellen von Modellen, um so den ML-Prozess vereinfachen.

Was ist AutoML?

AutoML ist die Automatisierung des maschinellen Lernens. Ziel ist es die menschliche Arbeitszeit des Data Science Prozess zu reduzieren. Durch AutoML fallen manuelle Schritte des klassischen, iterativen Prozess weg. Der Mensch muss dann nur noch die vorbereiteten Trainingsdaten als Eingabe definieren und ein optimiertes Modell wird erstellt.

Große Firmen wie Google und Amazon setzen stark auf die Entwicklung von AutoML und erhoffen sich so deutlich größere Kundengruppen zu erschließen. Denn maschinelles Lernen ist für Unternehmen oft ein teures Entwicklungsfeld. Data Science Mitarbeiter sind extrem teuer, die analytische Infrastruktur komplex und somit ein interessanter Anwendungsfall für Cloudanbieter.

AutoML – Machine Learning automatisieren

Machine Learning (maschinelles Lernen) ermöglicht die Extraktion von Wissen aus Datenbeständen: So lernt ein Computerprogramm anhand von Beispieldaten Muster und erstellt auf dieser Grundlage Prognosen für die Zukunft.

Machine Learning ist für Unternehmen sehr nützlich – beispielsweise um den Erfolg neuer Produkte abzuschätzen oder Risiken bestimmter Geschäftsprozesse zu erkennen. Obwohl beim Machine Learning ein Computer die Wissensgenerierung übernimmt, ist dieser Prozess nicht autonom.

ML-Prozess

Der Mensch hat an diesen iterativen Prozess einen hohen manuellen Anteil. Der Ablauf eines klassischen ML-Prozesses sieht in der Regel wie folgt aus:

  • Datenerhebung
  • Datensichtung
  • Vorbereitung der Daten
  • Feature Engineering
  • Auswahl des passenden Machine Learning Modells und der Features
  • Training des Modells (inkl. Hyperparameter Search)
  • Vorhersage durch das Modell

All diese Schritte laufen bislang getrennt voneinander ab. Das Ziel von AutoML ist es, all diese einzelnen Blöcke automatisch auszuführen. Als Anwender ist es Ihre Aufgabe, die entsprechenden Daten bereitzustellen und am Ende des Prozesses die Vorhersagen zu bewerten und in den Geschäftsprozessen nutzbar zu machen.

AutoML Prozess nach Olson
Source: R. Olson et. al. (2016) “Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science.”

In der Grafik von R. Olson et. al. zu sehen: von den Rohdaten bis zur Modellerstellung wird der komplette Prozess automatisiert (innerhalb des Kastens).

Alle anderen Schritte laufen bei AutoML automatisch ab – ganz ohne menschliches Eingreifen.

Automatisierung von Feature Engineering

Der AutoML-Prozess geht sogar so weit, dass Teile des Feature Engineering automatisiert wird. Bislang wurde diese komplexe Aufgabe durch ausgebildete Data Engineering und Data Science Experten erledigt. Mit AutoML wird versucht diesen Prozess zu automatisieren.

Daten liegen häufig in Tabellenform vor, aber besonders Bilder, Texte und Videos müssen vorverarbeitet werden, um bspw. Künstliche Neuronale Netze robuster zu machen.

Die genutzten Daten werden beim Machine Learning als Features bezeichnet. Um so besser die Features, die Zusammenhängen zwischen der Zielvaribale beschreibt, um so einfacher ist es Rückschlüsse auf zukünftige Ereignisse zu schließen.

Bevor sich diese Daten auswerten lassen, ist das Feature Engineering notwendig. Es werden Vairablen berechnet, um bestmöglich die Zusammenhänge zur Zielvariable zu erklären.

Aufgrund der Komplexität von Feature Engineering war bisher stets eine menschliche Arbeitskraft notwendig. Mit AutoML lässt sich auch diese Aufgabe automatisieren.

Klassisches Machine Learning und AutoML im Vergleich

Beim Vergleich mit klassischen ML-Prozessen wird deutlich, dass AutoML einen Vorteil hat: vor allem die erhebliche Reduzierung an menschlichem Arbeitseinsatz.

Der klassische ML-Prozess benötigt nicht nur viel Arbeitszeit, sondern auch Arbeitskräfte mit speziellen Kenntnissen. Die Kosten für Fachkräfte mit einem hohen Ausbildungsniveau sind beträchtlich und es ist schwierig, ein passendes Team zusammenzustellen.

Doch der alleinige AutoML-Prozess bringt den Unternehmen keinen Mehrwert, sondern erst wenn die Ergebnisse der Modelle in den Geschäftsprozessen zur Entscheidungsunterstützung dienen. AutoML kann diesen Transfer nicht leisten, daher wird der Mensch weiterhin eine entscheidende Rolle spielen.

Auch das fachliche Wissen spielt in der Modellierung eine wichtige Rolle, dies kann AutoML ebenfalls nicht leisten.

Beispiel von AutoML auf der Google Cloud anhand einer Kaggle Data Science Challange.

Doch wofür können wir AutoML dann einsetzen? Ein entscheidenen Punkt den ich für AutoML sehe, ist dass dadurch Machine Learning auch für kleinere Unternehmen sinnvoll eingesetzt werden kann.

In der Vergangenheit waren die Kosten für ML-Projekte eine große Einstiegshürde für kleinere Unternehmen. AutoML soll dies ändern – denn es werden deutlich weniger Spezialkenntnisse benötigt. Somit wird es wesentlich einfacher maschinelles Lernen anzuwenden.

Die wesentlichen Vorteile von AutoML auf einen Blick:

  • Schnellere Ergebnisse durch Automatisierung
  • Geringere Kosten durch geringeren Arbeitseinsatz
  • Geringere Anfälligkeit für Fehler
  • Nutzung auch für kleinere Betriebe möglich

AutoML Frameworks

Die wichtigsten AutoML Frameworks und Plattformen habe ich in der nachfolgenden Liste aufgeführt:

automl-plattformen
Historie von AutoML-Plattformen. (Quelle: KDnuggets)

Natürlich gibt es noch viele weitere Anbieter und Lösungen, aber die oben genannten sind die wichtigen Akture im AutoML-Feld.

AutoML: Welche Entwicklungen sind zu erwarten?

Meiner Meinung nach wird AutoML eine wichtige Rolle für die Skalierung von Data Science und Machine Learning spielen. Die Ergebnisse in Kaggle Data Science Wettbewerben zeigen, dass bereits Platzierungen unter den Top5 mit einem AutML-Framework möglich sind.

Ein Artikel in der renommierten Zeitschrift Forbes bezeichnet AutoML sogar als Zukunft der künstlichen Intelligenz. Es ist daher davon auszugehen, dass sich diese Technik schnell durchsetzen und bereits in den nächsten Jahren auch in vielen kleinen und mittleren Unternehmen anzutreffen sein wird.

Sind Datenwissenschaftler jetzt überflüssig?

Wohl kaum. Laut KDnuggets sind die AutoML Frameworks in der Lage gut Modelle zu bauen, aber die wichtigsten Tätigkeiten eines Data Scientist lösen sie nicht. Ein Data Scientist wird immer noch dafür gebraucht den fachlichen Austausch zwischen Technik und Fachbereich zu vermitteln, wichtiges Fachwissen in das Feature Engineering einzubringen und die eigentliche Problemdefinition des Modellings zu spezifizieren.

Wenn Sie von AutoML profitieren möchten, wenden Sie sich hierfür an uns und wir erarbeiten mit Ihnen eine individuelle Lösung.

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Laurenz Wuttke datasolut Gmbh
Ich freue mich, wenn Sie sich zu unserem Newsletter anmelden.

Jetzt zum Newsletter anmelden!

Den datasolut Blog abonnieren und Expertentipps zu Marketingoptimierung mit künstlicher Intelligenz erhalten.

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.