Data Science Projekte erfolgreich umsetzen!

Unternehmen erhoffen sich von Data Science Projekten und künstlicher Intelligenz große Potentiale für die Optimierung bestehender Prozesse sowie innovative Ansätze für neue Dienste. Doch was macht Data Science Projekte erfolgreich und wie schafft man den Erfolg langfristig zu sichern?

In diesem Artikel gehen wir auf die wichtigsten Aspekte erfolgreicher Data Science Projekte ein. Dabei zeigen wir auf wie Data Science langfristig für in Unternehmen erfolgreich etabliert wird.

Sind Sie schon erfolgreich mit Data Science? Wenn nicht sollten Sie die folgenden Punkte beachten.

Organisatorische Erfolgsfaktoren für Data Science

Die organisatorischen Erfolgsfaktoren von Data Science umfassen eher Faktoren, die bei Unternehmen in der Strategie verankert sein müssen. Viele Unternehmen sprechen über datenorientierte Ausrichtungen und Unternehmensstrategien, aber wird dabei in Tiefe über die organisatorischen Voraussetzungen für erfolgreiche Data Science Projekte nachgedacht? Im Folgenden spreche ich über drei wichtige strukturelle Faktoren für die erfolgreiche Integration von Data Science in Organisationen:

Datenorientierte Ausrichtung

Die datenorientierte Ausrichtung von Unternehmen, um Data Science langfristig erfolgreich zu betreiben, ist sicher einer der wichtigsten Erfolgsfaktoren. Unternehmen, bei denen ein datenorientiertes Denken noch nicht etabliert ist und die ganz am Anfang stehen, werden es schwer haben komplexe Machine Learning und Data Mining Ansätze langfristig erfolgreich zu implementieren.

“Having senior level support is very valuable. Our CEO in particular is a great supporter of machine learning and sees it as a fundamental part of our future.”

Matt Fryer, Chief Data Science Officer, Hotels.com

Ein besonders wichtiger Punkt ist dabei das Management, welches ein Unterstützer solcher Vorhaben sein muss. Große Tech-Unternehmen haben dies bereits vor Jahren erkannt und investieren nicht nur extreme Summen in Data Science Teams, erfahrene Manager und ML Infrastruktur, sondern bauen immer mehr Geschäftsmodelle auf Machine Learning auf. Des Weiteren gehört auch dazu, dass die richtige Infrastruktur, Tools und die entsprechenden Ressourcen dafür zur Verfügung stehen.

Ein weiterer Punkt ist die Vernetzung und Integration mit den Fachbereichen bzw. die Ausrichtung an den fachlichen Zielen. Oft sehe ich Data Science Projekte in der IT aufgehangen, wo das Thema eher sehr technisch betrachtet wird.

Dies ist sicher nicht falsch, denn Machine Learning ist extrem technisch geprägt. Allerdings soll ein bestimmtes Modell ein fachliches Problem lösen, oder? Daher ist aus meiner Sicht eine sehr enge Verzahnung mit dem fachlichen Owner von höchster Bedeutung und führt oft zu Problemen, wenn diese nicht gegeben ist, weil dann oft die Ziele nicht übereinstimmen.

Mehrwert durch Data Science Projekte

Natürlich machen wir Data Science Projekte nicht zum Selbstzweck, weil wir interessiert an neuen Ansätzen sind oder wir das Management mit Buzz-Wörtern beeindrucken wollen. Vielmehr sollte der Fokus, von Data Science Projekten, auf die Wertschöpfungskette von Daten gelegt werden, so dass in jedem Fall einen Mehrwert für das Unternehmen generiert wird.

Je nach Aufgabenstellung lässt sich der Mehrwert eines einzelnen Scores in einem einfachen A/B-Test beziffern und es kann dadurch klar belegt werden, dass der Einsatz von Data Science wertvoll für Unternehmen ist.

Besonders Tech-Unternehmen, wie Amazon, Spotify und Netflix haben Machine Learning in Form von Recommendation Systems (datengetriebene Personalisierung) bereits sehr tief in ihre Unternehmens DNA übernommen. Dies ermöglicht innovative Use Cases und Services wie bspw. die personalisierte, wöchentliche Playlist von Spotify.

Disziplin (Data Science Projekte als Disziplin)

Zu einem erfolgreichen Data Science Projekt gehört auch, dass klar definiert wird, was eigentlich entwickelt werden soll bzw. welche Problemstellung mit Data Science gelöst werden soll. Darauf folgt dann die Umsetzung dieses Plans auf einem hohen Standard. Qualität spielt wie bei jedem Projekt eine hohe Rolle (Shit In Shit Out)

Diszipliniertes Vorgehen gilt ebenfalls für die Analyse der Daten. Es bringt nichts, die Daten so lange zu analysieren bis ihr die Antwort habt. Wenn die Daten es nicht hergeben, ist dies ebenfalls eine wichtige Erkenntnis.

Technische Erfolgsfaktoren für Data Science Projekte

Einfach beginnen (Keep It Stupid Simple)

Data Science Projekte und Machine Learning sind komplex, daher müssen verschiedenste Aspekte beachtet werden. Besonders wenn ein Modell produktiv genommen wird. Daher ist es ein guter Tipp iterativ vorzugehen und somit die Modelle ggf. am Anfang sehr einfach zu halten (z.B. weniger oder einfachere Features zu nutzen), um schnelle Ergebnisse zu erzielen und daraus zu lernen. Dieser Iterative Prozess hat den Vorteil, dass man die komplette Daten- und Modell-Pipeline einmal durchläuft, Erkenntnisse sammeln kann und dann schneller Veränderungen vornehmen kann.

Data Science Projekte sind oft sehr technisch, daher ist es wichtig die technischen Grundlagen und Infrastruktur erst einmal aufzusetzen, so ist man im Folgenden sehr flexibel und kann Änderungen an Modellen schnell deployen sowie die Ergebnisse tracken.

Bei neuen Produkten oder Services, empfiehlt es sich im Zweifel ohne Machine Learning zu starten (Rule #4 Google Best Practices for ML Engineering) und zunächst die Technik zu implementieren. Hier können auch schon einfache Regelwerke einen Mehrwert bringen. Bei Recommender Systemen kann man zum Beispiel zunächst mit einem einfachen Top-Seller-Modell starten.

Data Science Bedürfnisse

Natürlich gibt es auch bestimmte Ansprüche an Infrastruktur und Tools die zur Verfügung stehen. Monica Rogati beschreibt in ihrem Artikel The AI Hierarchy of Needs eine Pyramide der Bedürfnisse von Data Science und Machine Learning Experten.

Data Science Hierachry of Needs
The Data Science Hierarchy of Needs

Collect

Angelehnt an die Maslowsche Bedürfnishierarchie müssen erst die Grundbedürfnisse von Data Scientists befriedigt werden. In Bezug auf Data Science Projekte und AI bedeutet dies, dass als erstmal Daten gesammelt werden müssen (Collect).

Move

Folgend müssen Daten regelmäßig durch ETL Prozesse zur Verfügung gestellt werden (Move/Store), so dass diese von Datenwissenschaftlern in der nächsten Stufe erst transformiert, gesäubert und aufbereitet werden

Explore & Transform

(Explore/Transform). Jetzt denken Sie sicher, dass dies Standardprozesse sind und somit in jedem Unternehmen vorzufinden. Aus meiner Erfahrung ist dies besonders ein Problem, wenn neue Quellen erschlossen werden, die in Modellen genutzt werden sollen. Neue Features können erst dann in einem Modell aufgenommen werden, wenn die Datenbereitstellung langfristig gesichert ist.

Aggregate & Label

Wenn die oben genannten Schritte gesichert sind, wird mit dem Machine Learning begonnen. Dazu wird ein Trainingsdatensatz aufgebaut (Zielvariabeldefinition und Labeling der Targets), Feature Engineering betrieben, KPIs erstellt und entsprechende Sampling Strategien bestimmt.

Learn & Optimize

Die darauffolgende Ebene (Learn/Optimize) beinhaltet Machine Learning und einfachere Optimierungen, sowie die anschließenden A/B Tests der Modelle. Die Machine Learning Modelle können relativ einfach sein, aber schon einen signifikanten Mehrwert in Organisationen schaffen.

Die Königsdisziplin ist dann Deep Learning und AI. Sehr komplexe Modelle mit Deep Learning Algorithmen, die viel Erfahrung und Wissen der Analysten fordert. Sicher nicht der erste Schritt, wenn es um Analytics geht.

Ich finde diese Darstellung von Monica Rogati passend, da viele Unternehmen genau andersrum handeln. Ein Manager hört den Begriff „AI“ und will dann sofort den größten Case umsetzen. In der Realität sind dann oft nicht mal die Grundlagen für Machine Learning und analytische Projekte gelegt. (wie z.B. eine ordentliche ML Plattform)

Data Science Toolset und Tracking für Data Science Projekte

Ein weiterer wichtiger Faktor ist das Toolset. Oft haben Analysten und Machine Learning Engineers bestimmte Vorstellung über zu nutzende Tools und Applikationen. Meine Erfahrung ist, dass es wichtig ist einen Konsens im Team zu schaffen. Gegebenenfalls bietet es sich sogar an unterschiedliche Sprachen in Development und Produktion zu nutzen (wo es Sinn macht).

Neben dem Toolset gibt es seit kurzer Zeit mehr und mehr das Bestreben in Data Science Projekten, den Entwicklungsprozess zu tracken d.h. den Fortschritt einer Entwicklung, die Daten, die Parameter und die Modelle in einem System zu protokollieren. Hier habe ich einen ganz kurzen Artikel zu der von databricks entwickelten Software MLflow geschrieben.

Wenn Sie Unterstützung bei dem Aufbau eines starken Data Science Teams sind, dann vereinbaren Sie gerne einen telefonischen Termin mit mir.

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Laurenz Wuttke datasolut Gmbh
Ich freue mich, wenn Sie sich zu unserem Newsletter anmelden.

Jetzt zum Newsletter anmelden!

Den datasolut Blog abonnieren und Expertentipps zu Marketingoptimierung mit künstlicher Intelligenz erhalten.

  • Spannende Interviews
  • Interessante Case Studies
  • Bewährte Praxistipps

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.