Was ist Data Mining?

Data Mining ist ein analytischer Prozess der anhand von computergestützten Methoden möglichst autonome und effiziente Identifizierung von interessanten Datenmustern in großen Datensätzen ermöglicht. Die eingesetzten Algorithmen kommen aus der Statistik, künstlichen Intelligenz oder dem maschinellen Lernen.

Data Mining ist ein breites Forschungsfeld und nutzt zur Mustererkennung in Datenbeständen verschiedene Algorithmen aus der Mathematik, Statistik und Informatik.

Sie fragen sich was Data Mining ist und welche Methoden dazu gehören? In diesem Artikel zeige ich Ihnen, welche Methoden es gibt, was die Unterschiede zur klassischen Statsitik sind und wie Sie Data Mining im Customer Relationship Management (CRM) erfolgreich einsetzen können. Wenn Sie das interssiert, dann lesen Sie weiter!

Data Mining Definition

Definition: Data Mining ist ein analytischer Prozess, der eine möglichst autonome und effiziente Identifizierung und Beschreibung von interessanten Datenmustern aus großen Datenbeständen ermöglicht.

Synonyme die für Data Mining häufig genutzt werden: Machine Learning, maschinelles Lernen, Deep Learning, Künstliche Intelligenz (KI)

Es handelt sich um einen interdisziplinären Ansatz, der Methoden aus der Informatik und der Statistik verwendet. Häufig kommen Verfahren aus dem Bereich der künstlichen Intelligenz und des maschinellen Lernens zum Einsatz. Eine kurze Einführung in das Thema “maschinelles Lernen” habe ich bereits in einem Beitrag gegeben.

Eine allgemeingültige Definition gibt es nicht. Jedoch ist es wichtig eine Abgrenzung zur sogenannten Wissensentdeckung in Datenbanken – dem Knowledge Discovery in Data Bases (KDD) – herzustellen. Viele Werke schreiben diesen Begriffen genau die gleiche Bedeutung zu. Das ist jedoch nicht ganz richtig. Die Wissensentdeckung in Datenbanken ist ein umfassenderer Prozess, der die Data-Mining-Mehtoden einschließt. Er beinhaltet darüber hinaus jedoch auch Aufgaben wie die Vorbereitung der Daten, die Überprüfung auf Interferenzen oder die Visualisierung der Ergebnisse.

Die Zielsetzung von Data Mining ist in der Regel die Generierung von Hypothesen aus einem Datenbestand, eine so genannte hypothesenfreie Bottom-Up-Vorgehensweise. In Bezug auf datengetriebene Analysen im CRM kann man folgendes Fragen:

  • Welche Artikel verkaufen sich besonders gut zusammen?
  • Welche Kunden soll ich in einer Direktwerbekampagne anschreiben?
  • Wie verhält sich ein Bestandskunde?
  • Welche Kundengruppen gibt es?
  • Welchen Wert hat mein Kunde?

Statistik und Data Mining Methoden im Verlgeich

Häufig werden Data Mining Methoden mit Statistik verglichen, die Unterschiede liegen vor allem in der Zielstellung, Datenmenge und der Berechnung.

StatistikData Mining
Datenmengekleine Datenmengen mit Fallzahl von 30größere Datenmengen bis hinzu Big Data
ÜbertragbarkeitSchlussfolgerungen erfolgen anhand einer Stichprobe der GrundgesamtheitGrundgesamtheit existiert oft nicht
Stichprobe ist nicht definiert
Datenbestände ändern sich ständig
BerechnungAuf dem Papier und mit Taschenrechner möglichComputer oder Server
VoraussetzungenEs muss sehr genau geprüft werden welches Verfahren zum Einsatz kommt.Data Mining Methoden sind nicht mehr theoretisch begründet und daher an den Daten verprobt.
ZielstellungTesten von HypothesenGenerieren von Hypothesen

Data Mining Methoden

Die Methoden des Data Minings lassen sich grundsätzlich in die Gruppen: Klassifikation, Prognose, Segmentierung und Abhängigkeitsentdeckung enteilen.

  • Klassifikation – ist die Suche nach Mustern anhand eines Klassifikationsmerkmals. Dies kann zum Beispiel die Modellierung einer Produktaffinität sein. Durch die antrainierten Muster sagt man bspw. Produktaffinitäten vorher.
  • Prognose – ist die Suche nach Mustern einer numerischen Zielvariable. Prognoseverfahren werden eigesetzt um Werte (bspw. Umsatz oder Absatz im nächsten Monat) für die Zukunft vorherzusagen.
  • Gruppierung (Segmentierung & Clustering) – das Finden von Gruppen und Segmenten in einem Datenbestand. Oft werden im Marketing und CRM Kundensegmentierungen durchgeführt und diese dann zur genaueren Targetierung von Marketing Maßnahmen genutzt.
  • Abhängigkeitsentdeckung (Assoziation & Sequenz) – ist die Suche nach Mustern, bei denen Element mit dem anderen in Beziehung und Abhängigkeit steht. Ein Beispiel dafür ist ein klassische Warenkorbanalyse.

Da mehrere Data Mining Methoden für die selbe Problemstellung zum Einsatz kommen können, ist die Einteilung der Methoden nach Aufgabentyp sinnvoll. Die folgende Abbildung zeigt, dass sich die Aufgabentypen auf höchster Ebene zwischen Potential- und Beschreibungsaufgaben unterscheiden.

Data Mining Aufgabentypen, Klassifikation, Prognose, Segmentierung, Assoziation
Einordnung von Data Mining Aufgabentypen

Klassifikation

Die Klassifikation von Datensätzen ist einer der weitverbreitetsten Data Mining-Methoden in der Praxis.

Bei der Klassifikation wird ein Objekt (z.B. ein Kunde) anhand seiner Merkmale zu einer vorab definierten Klasse zugeordnet bspw. ob ein Kunde auf eine bestimmte Kampagne reagiert hat oder nicht.

Die Grundlage für die Klassifikation bilden Datensätze, die verschiedene (unabhängige) Merkmale sowie eine (abhängige) Zielgröße enthalten. Die Zielgröße ist in unserem Beispiel die Reaktion auf die Kampagne mit einem Kauf, also Kauf Ja oder Nein.

Die beschriebenen Daten nennt man auch Trainingsdaten oder Trainingsmenge. Zielsetzung der Klassifikation besteht darin, ein Modell zu trainieren, was eine gute Voraussage für neue Objekte ermöglicht.

In unserem Fall wären es neue Kunden, wo wir anhand des Modelles bewerten können, ob der Kunde reagiert oder nicht. Für die Klassifikation wird häufig ein Entscheidungsbaum-Verfahren eingesetzt.

Prognose

Ziel der Prognose ist es, ein Scoring-Modell zur Prognose eines stetigen Wertes (z.B. Kundenwert oder Umsatz) zu erstellen. Dabei wird ein Modell erstellt, das die Beziehungen einer abhängigen Variablen (z.B. Kundenwert) und einer oder mehreren unabhängigen Variablen (Alter, Anzahl Bestellungen, Kundentyp etc.) untersucht.

Wie bei der Klassifikation, wird bei der Prognose der Beispieldatensatz (Trainigsdatensatz) dazu genutzt, um ein Modell zu trainieren, was Vorhersagen in der Zukunft treffen kann. Anstatt Klassen, ermöglicht die Prognose die Vorhersage von steigen Werten wie Umsätzen, Kundenwerten etc.

Segmentierung (Cluster-Analyse)

Beschreibungsaufgaben hingegen fassen die Datenbestände enthaltenen Verhaltensweisen von Kunden oder Objekten zu Mustern zusammen. Bei der Gruppierung bzw. Segementierung wird die gesamte Datenmenge in mehrere Teilmengen bzw. Segmente unterteilt. Ziel ist es die Datenmenge in anhand der Merkmale in möglichst homogene Teilmengen zu unterteilen.

Assoziation (Abhängigkeitsentdeckung)

Bei der Assoziationsanalyse werden Assoziations- und Sequenzanalysen eingesetzt. Häufiger Einsatz finden diese Data Mining Verfahren bei Warenkorbanalysen. Dies ist besonders hilfreich, wenn keine Kennung über den Kunden herstellbar ist und lediglich die Bondaten zur Verfügung stehen.

Mit Hilfe der Assoziationsanalyse lassen sich Regeln aus Datensätzen erstellen, ohne Zielvariable vorzugeben. Eine Regel könnte lauten: Wenn Artikel A gekauft wird, dann wird auch Artikel B gekauft.

Sequenzanalysen stellen eine Erweiterung von Assoziationsanalysen dar. Hierbei werden zeitbezogene Assoziationsregeln gesucht, wie bspw.: in 80% der Fälle, in denen Artikel A gekauft wurde, wird auch Artikel B und anschließend Artikel C.

Data Mining Prozess CRISP

Im Jahr 2000 wurde mit dem CRISP-DM Modell ein einheitlicher Standard für Data Mining Prozesse geschaffen. Es ist die grundsätzliche Zielsetzung des CRISP-DM-Modells, einen branchen-, software- und anwendungsunabhängigen standardisierten Prozessablauf des Data Minings für Unternehmen bereitzustellen.

Die ursprüngliche Veröffentlichung zum CRISP-DM-Modell finden Sie hier.

Ergebnisse des Data Minings sollen durch das CRISP-DM-Modell schneller und präziser zur Verfügung gestellt werden. Im Folgenden wird der CRISP-DM dargestellt, dieser ist in sechs Schritte unterteilt:

Data Mining CRISP Process
CRISP-DM Modell nach Shearer
  • 1. Phase : Business Understanding (Aufgabendefinition)
  • 2. Phase: Data Understanding (Auswahl der relevanten Datenbestände)
  • 3. Phase: Data Preparation (Datenaufbereitung)
  • 4. Phase: Modeling (Auswahl und Anwendung von Methoden)
  • 5. Phase: Evaluation (Bewertung und Interpretation der Ereignisse)
  • 6. Phase: Deployment (Anwendung der Ergebnisse)

Die einzelnen Phasen, sowie die Iterationen der einzelnen Phasen dieses Modells, werden je nach Problemstellung unterschiedlich gewichtet. Jede Phase dieses Modells spielt eine entscheidende Rolle für den Erfolg eines Projektes. In der Abbildung wird erkenntlich, dass das CRISP-DM-Modell einen Kreislauf darstellt und somit iterativ ist.

Wer im Detail über den CRISP-DM-Prozess erfahren will, kann dies in diesem Artikel von mir tun.

Data Mining im CRM

Für den Einsatz von Data Mining gibt es im Customer Relationship Managment (CRM) viele Anwendungsfälle. Die Aufgabenfelder unterteilen sich in das Interessentenmanagement, Kundenbidungsmanagement und Rückgewinnungsmanagement.

Einsatz von Data Mining anahnd des Kundenlebenszyklus, Interessentenmanagement, Kundenbeziehungsmanagement, Rückgewinnungsmanagement
Aufgabenfelder des Data Minings anhand des Kundenlebenszyklus nach Linhoff und Berry

Kunden durchlaufen verschiedene Phasen einer Geschäftsbeziehung mit einem Unternehmen. Entlang dieser Kundenlebenszyklus-Phasen kann man mit Data Mining einen durch gezieltere Kommunikation und Angebot einen Mehrwert schaffen.

Der Einsatz von Data Mining ist ein wichtiger Bestandteil des analytischen Customer Relationship Managments.

Data Mining im Interessentenmanagement

Oft werden die potentiellen Kunden, die noch keine Geschäftsbeziehung mit dem Unternehmen aufgebaut haben, mit groß angelegten Akquisitionskampagnen nach dem „Gießkannenprinzip“ angesprochen, d.h. es erfolgt keine zielgruppenspezifische Ansprache der potentiellen Kunden.

Genau hier setzt Data Mining mit Methoden an, um potentielle Kunden zu identifizieren, die z.B. für ein bestimmtes Produkt besonders affin sind. Auch wenn für potentielle Kunden meist wenige Informationen zur Verfügung stehen, kann diese analytische Ansatz dazu beitragen, Akquisitionskampagnen zu optimieren.

Beispiele für Data Mining im Kundenbeziehungsmanagement

Data Mining bietet in dem Aufgabengebiet des Kundenbeziehungsmanagements eine Vielzahl von Anwendungsmöglichkeiten, da die Datengrundlage von bereits vorhandenen Kunden einen größeren Umfang bietet. Data Mining kann dabei helfen, die Kundenbeziehungen zu festigen, zu intensivieren und zu stabilisieren.

Im CRM kommen immer wieder analytische Fragestellungen auf:

Diese Fragestellungen können mit Hilfe von unterschiedlichen Data Mining Methoden beantwortet werden. So können auf Basis der Assoziationsanalyse z.B. Cross- und Up-Selling-Analysen durchgeführt werden. Clusteralgorithmen liefern wertvolle Informationen über das Kundenverhalten und können dazu genutzt werden Cross-Selling-Potential aufzudecken.

Kundenbewertungen stellen ein wichtiges Verfahren für kundenspezifische Marketing-, Vertriebs- und Servicekonzepte dar. Die Kunden können mit Klassifikationsverfahren in bestimmte Gruppen zugeordnet und werden damit beispielsweise nach Bonität oder Produktaffinität beurteilt. Diese Klassifikation kann dann als Grundlage für eine Zielgruppenselektion für Kampagnen herangezogen werden.

Melden Sie sich zum datasolut Navigator an!

Erhalten Sie tiefe Einblicke wie Sie mit künstlicher Intelligenz und maschinellem Lernen Ihr Marketing optimieren können, sowie Zugang zu exklusiven Whitepapern und praktischen Anleitungen.

Mit der Anmeldung zu unserem Newsletter stimmst du unserer Datenschutzerklärung zu.

Einsatz im Rückgewinnungsmanagement

Für die Analyse der Kundendaten zur Identifikation von potentiellen Churn oder Kündigern eignen sich verschiedene Data Mining-Methoden wie bspw. Entscheidungsbäume oder Neuronale Netze. Um abwanderungsgefährdete Kunden (Churn Prediction) zu identifiziert, muss man für einen bestimmten Zeitpunkt eine Menge von Kunden als eindeutige Abwanderer bestimmen.

Darauf aufbauend wird ein Modell erstellt, um aus den Kundendaten der Vergangenheit, die Abwanderung bzw. Nicht-Abwanderung abzuleiten. Resultierend aus diesen Ergebnissen können pro-aktive Maßnahmen eingeleitet werden, um die Kundenbeziehung zu stabilisieren.

Zu dem ganzen Thema Churn Prediction habe ich einen interessanten Artikel geschrieben.

Data Mining und Big Data

Der Begriff Data Mining wird häufig im Zusammenhang mit Big Data verwendet. Diese Begriffe haben jedoch nicht die gleiche Bedeutung.

Big Data bezieht sich auf die Verarbeitung sehr großer Datenmengen, die sich mit den herkömmlichen Methoden nicht aufbereiten lassen. Es geht eher um die Plattform, die die Verarbeitung großer Datenmengen erst möglich macht.

Die Data-Mining-Technik wird häufig auf Big Data angewendet, da durch die große Datenmenge die herkömmliche Analyse von Daten kaum noch sinnvoll ist. Hier kommt Data Mining zum Einsatz, um beispielsweise Muster zu erlernen und dann Vorhersagen für die Zukunft zu treffen. Ein weiterer Vorteil von großen Datenmengen, ist dass die Data Mining Methoden oft deutlich besser funktionieren, wenn viele Beispieldatensätze für das Training der Modelle zur Verfügung stehen.


Ihr Ansprechparnter: Laurenz Wuttke

Wir entwickeln Künstliche Intelligenz, mit der Sie mehr aus Ihren Kundendaten machen – für wachsende Umsätze und eine nachhaltig hohe Kundenzufriedenheit.

Auch interessant für Sie