Data Science Projekte erfolgreich umsetzen!

Unternehmen erhoffen sich von Data Science Projekten und künstlicher Intelligenz große Potentiale für die Optimierung bestehender Prozesse sowie innovative Ansätze für neue Dienste. Doch was macht Data Science Projekte erfolgreich und wie schafft man den Erfolg langfristig zu sichern?

In diesem Artikel gehen wir auf die wichtigsten Aspekte erfolgreicher Data Science Projekte ein. Dabei zeigen wir auf, wie Data Science langfristig und erfolgreich in Unternehmen etabliert werden kann.

Sind Sie schon erfolgreich mit Data Science? Wenn nicht sollten Sie die folgenden Punkte beachten.

Wollen Sie mehr über Data Science erfahren, dann klicke Sie gerne hier.

Organisatorische Erfolgsfaktoren für Data Science

Die organisatorischen Erfolgsfaktoren von Data Science umfassen eher Faktoren, die bei Unternehmen in der Strategie verankert sein müssen. Viele Unternehmen sprechen über datenorientierte Ausrichtungen und Unternehmensstrategien. Doch wird dabei in Tiefe über die organisatorischen Voraussetzungen für erfolgreiche Data Science Projekte nachgedacht? Im Folgenden spreche ich über drei wichtige strukturelle Faktoren für die erfolgreiche Integration von Data Science in Organisationen:

Datenorientierte Ausrichtung

Die datenorientierte Ausrichtung von Unternehmen, um Data Science langfristig erfolgreich zu betreiben, ist sicher einer der wichtigsten Erfolgsfaktoren. Unternehmen, bei denen ein datenorientiertes Denken noch nicht etabliert ist und somit ganz am Anfang stehen, werden es schwer haben, komplexe Machine Learning und Data Mining Ansätze langfristig und erfolgreich zu implementieren.

“Having senior level support is very valuable. Our CEO in particular is a great supporter of machine learning and sees it as a fundamental part of our future.”

Matt Fryer, Chief Data Science Officer, Hotels.com

Ein besonders wichtiger Punkt ist dabei das Management, welches als unterstützende Funktion solcher Vorhaben dienen soll. Große Tech-Unternehmen haben dies bereits vor Jahren erkannt und investieren nicht nur hohe Summen in Data Science Teams, erfahrene Manager und ML Infrastruktur, sondern bauen immer mehr Geschäftsmodelle mittels Machine Learning auf. Des Weiteren gehört auch dazu, dass die richtige Infrastruktur, Tools und die entsprechenden Ressourcen zur Verfügung stehen.

Ein weiterer Punkt ist die Vernetzung und Integration mit den Fachbereichen bzw. die Ausrichtung an den fachlichen Zielen. Oft sehe ich Data Science Projekte in der IT, in denen verschiedene Themen eher sehr technisch betrachtet werden.

Dies ist sicherlich nicht falsch, denn Machine Learning ist extrem technisch geprägt. Allerdings soll ein bestimmtes Modell ein fachliches Problem lösen, oder? Daher ist aus meiner Sicht eine sehr enge Verzahnung mit dem fachlichen Owner von höchster Bedeutung. Ist dies nicht gegeben, so führt dies oft zu Problemen, weil dadurch oft die Ziele nicht übereinstimmen.

Mehrwert durch Data Science Projekte

Natürlich machen wir Data Science Projekte nicht ausschließlich zum Selbstzweck, weil wir interessiert an neuen Ansätzen sind oder wir das Management mit Buzz-Wörtern beeindrucken wollen. Vielmehr sollte der Fokus von Data Science Projekten auf der Wertschöpfungskette von Daten liegen, sodass in jedem Fall ein Mehrwert für das Unternehmen generiert wird.

Je nach Aufgabenstellung lässt sich der Mehrwert eines einzelnen Scores in einem einfachen A/B-Test beziffern und es kann dadurch klar belegt werden, dass der Einsatz von Data Science wertvoll für Unternehmen ist.

Besonders Tech-Unternehmen, wie Amazon, Spotify und Netflix haben Machine Learning in Form von Recommendation Systems (datengetriebene Personalisierung) bereits sehr tief in ihre Unternehmens-DNA übernommen. Dies ermöglicht innovative Use Cases und Services wie bspw. die personalisierte, wöchentliche Playlist von Spotify.

Disziplin (Data Science Projekte als Disziplin)

Zu einem erfolgreichen Data Science Projekt gehört auch, dass klar definiert wird, was eigentlich entwickelt werden soll bzw. welche Problemstellung mit Data Science gelöst wird. Darauf folgt dann die Umsetzung dieses Plans auf einem hohen Standard. Dabei spielt die Qualität wie bei jedem anderen Projekt eine hohe Rolle (Shit In Shit Out).

Diszipliniertes Vorgehen gilt ebenfalls für die Analyse der Daten. Es bringt nichts, die Daten so lange zu analysieren bis man die Antwort habt. Denn, geben es die gewonnenen Daten nicht her, so ist dies ebenfalls eine wichtige Erkenntnis.

Technische Erfolgsfaktoren für Data Science Projekte

Einfach beginnen (Keep It Stupid Simple)

Data Science Projekte und Machine Learning sind komplex, daher müssen verschiedenste Aspekte beachtet werden, vor allem wenn ein Modell produktiv genommen wird. Daher ist es ein guter Tipp, iterativ vorzugehen und somit die Modelle ggf. am Anfang sehr einfach zu halten (z.B. weniger oder einfachere Features zu nutzen), um schnelle Ergebnisse zu erzielen und daraus zu lernen. Dieser iterative Prozess hat den Vorteil, dass man die komplette Daten- und Modell-Pipeline einmal durchläuft, Erkenntnisse sammeln kann und anschließend schneller Veränderungen vornehmen kann.

Data Science Projekte sind oft sehr technisch, daher ist es wichtig, die technischen Grundlagen und Infrastruktur erst einmal aufzusetzen. Somit ist man im Folgenden sehr flexibel und kann Änderungen an Modellen schnell deployen und die Ergebnisse tracken.

Bei neuen Produkten oder Services empfiehlt es sich im Zweifel ohne Machine Learning zu starten (Rule #4 Google Best Practices for ML Engineering) und zunächst die Technik zu implementieren. Hier können auch schon einfache Regelwerke einen Mehrwert bringen. Bei Recommender Systemen kann man zum Beispiel zunächst mit einem einfachen Top-Seller-Modell starten.

Data Science Bedürfnisse

Natürlich gibt es auch bestimmte Ansprüche an Infrastruktur und Tools die zur Verfügung stehen. Monica Rogati beschreibt in ihrem Artikel The AI Hierarchy of Needs eine Pyramide der Bedürfnisse von Data Science und Machine Learning Experten.

Data Science Hierachry of Needs
The Data Science Hierarchy of Needs

Collect

Angelehnt an die Maslowsche Bedürfnishierarchie müssen erst die Grundbedürfnisse von Data Scientists befriedigt werden. In Bezug auf Data Science Projekte und AI bedeutet dies, dass im ersten Schritt Daten gesammelt werden müssen (Collect).

Move

Folgend müssen Daten regelmäßig durch ETL Prozesse zur Verfügung gestellt werden (Move/Store), so dass diese von Datenwissenschaftlern in der nächsten Stufe transformiert, gesäubert und aufbereitet werden.

Explore & Transform

(Explore/Transform). Jetzt denken Sie sicher, dass dies Standardprozesse sind und somit in jedem Unternehmen vorzufinden sind. Aus meiner Erfahrung ist dies besonders ein Problem, wenn neue Quellen erschlossen werden, die in Modellen genutzt werden sollen. Neue Features können erst dann in einem Modell aufgenommen werden, wenn die Datenbereitstellung langfristig gesichert ist.

Aggregate & Label

Wenn die oben genannten Schritte gesichert sind, wird mit dem Machine Learning begonnen. Dazu wird ein Trainingsdatensatz aufgebaut (Zielvariabeldefinition und Labeling der Targets), Feature Engineering betrieben, KPIs erstellt und entsprechende Sampling Strategien bestimmt.

Learn & Optimize

Die darauffolgende Ebene (Learn/ Optimize) beinhaltet Machine Learning und einfachere Optimierungen, sowie die anschließenden A/B Tests der Modelle. Die Machine Learning Modelle können relativ einfach sein, aber schon einen signifikanten Mehrwert in Organisationen schaffen.

Die Königsdisziplin ist letztendlich Deep Learning und AI. Dabei stehen sehr komplexe Modelle mit Deep Learning Algorithmen, die viel Erfahrung und Wissen der Analysten fordern im Vordergrund. Doch dies ist sicherlich nicht der erste Schritt, wenn es um Analytics geht.

Ich finde diese Darstellung von Monica Rogati passend, da viele Unternehmen genau entgegengesetzt handeln. Ein Manager hört den Begriff „AI“ und will anschließend sofort den größten Case umsetzen. In der Realität sind dann oft nicht mal die Grundlagen für Machine Learning und analytische Projekte gelegt. (wie z.B. eine ordentliche ML Plattform)

Data Science Toolset und Tracking für Data Science Projekte

Ein weiterer wichtiger Faktor ist das Toolset. Oft haben Analysten und Machine Learning Engineers eine bestimmte Vorstellung über jeweilige Tools und Applikationen. Meine Erfahrung ist, dass es wichtig ist, einen Konsens im Team zu schaffen. Gegebenenfalls bietet es sich sogar an, unterschiedliche Sprachen in Development und Produktion zu nutzen (abhängig vom Nutzen).

Neben dem Toolset gibt es seit kurzer Zeit mehr und mehr das Bestreben in Data Science Projekten, den Entwicklungsprozess zu tracken. Dies bedeutet in der Praxis, den Fortschritt einer Entwicklung, die Daten, die Parameter und die Modelle innerhalb eines Systems zu protokollieren. Hier habe ich einen kurzen Artikel zu der von databricks entwickelten Software MLflow geschrieben.

Wenn Sie Unterstützung bei dem Aufbau eines starken Data Science Teams benötigen, dann vereinbaren Sie gerne einen telefonischen Termin mit mir.

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Praxisbeispiele

Künstliche Intelligenz optimiert Marketing und Vertrieb

Tragen Sie sich hier in unseren Newsletter ein und erhalten Sie gratis die KI-Anwendungsfälle:

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.