Data Mining: Algorithmen, Definition, Methoden und Anwendungsbeispiele

Data Mining ist ein analytischer Prozess, der anhand von computergestützten Methoden möglichst autonome und effiziente Identifizierung von interessanten Datenmustern in großen Datensätzen ermöglicht. Die eingesetzten Algorithmen kommen aus der Statistik, künstlichen Intelligenz oder dem maschinellen Lernen.

Data Mining ist ein breites Forschungsfeld und nutzt zur Mustererkennung in Datenbeständen verschiedene Algorithmen aus der Mathematik, Statistik und Informatik.

Sie fragen sich was Data Mining ist und welche Methoden dazu gehören? In diesem Artikel zeige ich Ihnen, welche Methoden es gibt, was die Unterschiede zur klassischen Statistik sind und wie Sie Data Mining im Customer Relationship Management (CRM) erfolgreich einsetzen können. Wenn Sie das interessiert, dann lesen Sie weiter!

Data Mining Definition

Definition: Data Mining ist ein analytischer Prozess, der eine möglichst autonome und effiziente Identifizierung und Beschreibung von interessanten Datenmustern aus großen Datenbeständen ermöglicht.

Bei Data Mining handelt es sich um einen interdisziplinären Ansatz, der Methoden aus der Informatik und der Statistik verwendet. Häufig kommen Verfahren aus dem Bereich der künstlichen Intelligenz und des maschinellen Lernens zum Einsatz. Eine kurze Einführung in das Thema „maschinelles Lernen“ habe ich bereits in einem Beitrag gegeben.

Eine allgemeingültige Definition für Data Mining gibt es nicht. Jedoch ist es wichtig eine Abgrenzung zur sogenannten Wissensentdeckung in Datenbanken – dem Knowledge Discovery in Data Bases (KDD) – herzustellen. Viele Werke schreiben diesen Begriffen dieselbe Bedeutung zu. Das ist jedoch nicht ganz richtig. Die Wissensentdeckung in Datenbanken ist ein umfassenderer Prozess, der die Data-Mining-Methoden einschließt. Er beinhaltet darüber hinaus jedoch auch Aufgaben, wie die Vorbereitung der Daten, die Überprüfung auf Interferenzen oder die Visualisierung der Ergebnisse.

Data Mining: Definition, Methoden und Beispiele in einem Video erklärt.

Die Zielsetzung von Data Mining ist in der Regel die Generierung von Hypothesen aus einem Datenbestand, eine so genannte hypothesenfreie Bottom-Up-Vorgehensweise.

Die Definition für Data Mining wird häufig als Synonym für andere Begriffe genutzt: Machine Learning, maschinelles Lernen, Deep Learning, Künstliche Intelligenz (KI)

Welche Vorteile hat Data Mining?

Data Mining hilft Unternehmen dabei, extrem große Datenmengen zu analysieren, daraus interessante Muster zu erkennen und sim Anschluss die richtigen Entscheidungen zu treffen. Die Vorteile von Data Mining sind:

  • Kundenbedürfnisse erkennen und besser verstehen
  • Genaue Vorhersagen für die Zukunft erstellen
  • Zeitreihenprognosen erstellen
  • Trends und Anomalien frühzeitig erkennen
  • Texte und Bilder maschinell zu verarbeiten
  • Entscheidungsprozess stützten
  • Hypothesen zu validieren
  • Geschäftsprozesse zu optimieren

Data Mining Methoden

Die Methoden des Data Minings lassen sich grundsätzlich in die Gruppen: Klassifikation, Prognose, Segmentierung und Abhängigkeitsentdeckung enteilen.

  • Klassifikation – ist die Suche nach Mustern anhand eines Klassifikationsmerkmals. Dies kann zum Beispiel die Modellierung einer Produktaffinität sein. Durch die antrainierten Muster sagt man bspw. Produktaffinitäten vorher.
  • Prognose – ist die Suche nach Mustern einer numerischen Zielvariable. Prognoseverfahren werden eigesetzt um Werte (bspw. Umsatz oder Absatz im nächsten Monat) für die Zukunft vorherzusagen.
  • Gruppierung (Segmentierung & Clustering) – das Finden von Gruppen und Segmenten in einem Datenbestand. Oft werden im Marketing und CRM Kundensegmentierungen durchgeführt und diese dann zur genaueren Targetierung von Marketing Maßnahmen genutzt.
  • Abhängigkeitsentdeckung (Assoziation & Sequenz) – ist die Suche nach Mustern, bei denen Element mit dem anderen in Beziehung und Abhängigkeit steht. Ein Beispiel dafür ist ein klassische Warenkorbanalyse.

Da mehrere Data Mining Methoden für dieselbe Problemstellung zum Einsatz kommen können, ist die Einteilung der Methoden nach Aufgabentyp sinnvoll. Die folgende Abbildung zeigt, dass sich die Aufgabentypen auf höchster Ebene zwischen Potential- und Beschreibungsaufgaben unterscheiden.

Data Mining Aufgabentypen, Klassifikation, Prognose, Segmentierung, Assoziation
Einordnung von Data Mining Aufgabentypen

Klassifikation

Die Klassifikation von Datensätzen ist einer der weitverbreitetsten Data Mining-Methoden in der Praxis.

Bei der Klassifikation wird ein Objekt (z.B. ein Kunde) anhand seiner Merkmale zu einer vorab definierten Klasse zugeordnet, bspw. ob ein Kunde auf eine bestimmte Kampagne reagiert hat oder nicht.

Die Grundlage für die Klassifikation bilden Datensätze, die verschiedene (unabhängige) Merkmale sowie eine (abhängige) Zielgröße enthalten. Die Zielgröße ist in unserem Beispiel die Reaktion auf die Kampagne mit einem Kauf, also Kauf Ja oder Nein.

Die beschriebenen Daten nennt man auch Trainingsdaten oder Trainingsmenge. Zielsetzung der Klassifikation besteht darin, ein Modell zu trainieren, was eine gute Voraussage für neue Objekte ermöglicht.

In unserem Fall wären es neue Kunden, wo wir anhand des Modelles bewerten können, ob der Kunde reagiert oder nicht. Für die Klassifikation wird häufig ein Entscheidungsbaum-Verfahren eingesetzt.

Prognose

Ziel der Prognose ist es, ein Scoring-Modell zur Prognose eines stetigen Wertes (z.B. Kundenwert oder Umsatz) zu erstellen. Dabei wird ein Modell erstellt, das die Beziehungen einer abhängigen Variablen (z.B. Kundenwert) und einer oder mehreren unabhängigen Variablen (Alter, Anzahl Bestellungen, Kundentyp etc.) untersucht.

Wie bei der Klassifikation, wird bei der Prognose der Beispieldatensatz (Trainingsdatensatz) dazu genutzt, um ein Modell zu trainieren, welches Vorhersagen in der Zukunft treffen kann. Anstatt Klassen, ermöglicht die Prognose die Vorhersage von steigen Werten wie Umsätzen, Kundenwerten etc.

Segmentierung (Cluster-Analyse)

Beschreibungsaufgaben hingegen fassen die in Datenbeständen enthaltenen Verhaltensweisen von Kunden oder Objekten zu Mustern zusammen. Bei der Gruppierung bzw. Segmentierung wird die gesamte Datenmenge in mehrere Teilmengen bzw. Segmente unterteilt. Ziel ist es die Datenmenge anhand der Merkmale in möglichst homogene Teilmengen zu unterteilen.

Jetzt zum datasolut Newsletter anmelden

Erhalten Sie tiefe Einblicke wie Sie mit künstlicher Intelligenz und maschinellem Lernen Ihr Marketing optimieren können, sowie Zugang zu exklusiven Whitepapern und praktischen Anleitungen.

Mit der Anmeldung zu unserem Newsletter stimmst du unserer Datenschutzerklärung zu.

Assoziation (Abhängigkeitsentdeckung)

Bei der Assoziationsanalyse werden Assoziations- und Sequenzanalysen eingesetzt. Häufigeren Einsatz finden diese Data Mining Verfahren bei Warenkorbanalysen. Dies ist besonders hilfreich, wenn keine Kennung über den Kunden herstellbar ist und lediglich die Bondaten zur Verfügung stehen.

Mit Hilfe der Assoziationsanalyse lassen sich Regeln aus Datensätzen erstellen, ohne Zielvariable vorzugeben. Eine Regel könnte lauten: Wenn Artikel A gekauft wird, dann wird auch Artikel B gekauft.

Sequenzanalysen stellen eine Erweiterung von Assoziationsanalysen dar. Hierbei werden zeitbezogene Assoziationsregeln gesucht, wie bspw.: in 80% der Fälle, in denen Artikel A gekauft wurde, wird auch Artikel B und anschließend Artikel C gekauft.

Data Mining Algorithmen

Data Mining bietet verschiedene Verfahren und Algorithmen, um aus Daten wertvolle Muster zu erkennen. Ich habe Ihnen häufig verwendete Data Mining Algorithmen aufgelistet:

Anwendungsbeispiele von Data Mining

Data Mining wird in vielen Bereichen von Forschung und Wirtschaft eingesetzt und bietet hohe Anwendungspotentiale für die Zukunft. Anwendungsbeispiele sind im Customer Relationship Management (CRM), im Finanzsektor für Banken und Versicherungen, Telekommunikationsbranche, Produktion, Logistik sowie im E-Commerce. Im Folgenden möchte ich genauer auf die einzelnen Einsatzgebiete eingehen:

Data Mining im Marketing und CRM

Im Marketing und CRM kann Data Mining häufig branchenübergreifend in B2C sowie B2B Geschäftsmodellen eingesetzt werden. Hier wird besonders das historische Kundenverhalten genutzt, um Vorhersagen für das zukünftige Kaufverhalten abzuleiten. So kann individuell auf Kundenbedürfnisse eingegangen werden.

Häufig fällt hier der Begriff „Personalisierung im Marketing“, also die kundenindividuelle Kommunikation mit jedem einzelnen Kunden. Dies kann nur durch eine starke Automatisierung und entsprechende Data Mining Methoden erreicht werden. Unternehmen können nicht selten durch Data Mining in Ihren Marketingkampagnen langfristige Umsatzsteigerungen von 5-15% erreichen.

Handel und E-Commerce

Im Handel und E-Commerce ist Data Mining mit etlichen Anwendungsfällen vertreten. Hier sind besonders folgende Anwendungen interessant:

Banken und Versicherungen

Vertragsbasierte Geschäftsmodelle haben häufig ähnliche Herausforderungen wie Unternehmen aus dem Handel und E-Commerce. Sie wollen die Kundenbeziehung profitabler machen und besser auf die Kundenbedürfnisse eingehen. Folgende Anwendungen werden häufig eingesetzt:

Energieversorger und Telekommunikation

Auch bei den Energieversorgern und in der Telekommunikationsbranche kann Data Mining eingesetzt werden, um Kundenverhalten zu analysieren und damit Marketingkampagnen zu optimieren. Häufig kommen hier Anwendungsfälle wie Kundenabwanderungsprognosen, Next-Best-Offer Prognosen und Kundensegmentierungen zum Einsatz.

Medizin

In der Medizin kann Data Mining insbesondere dabei helfen unstrukturierte Daten wie Bilder zu analysieren und dabei Muster zu erkennen. So kann Ärzten und Wissenschaftlicher dabei geholfen werden Krankheiten schneller oder mit einer höheren Genauigkeit zu identifizieren.

Produktion

Ein großes Themengebiet von Data Mining ist die Vorhersage von Maschinenausfällen. Häufig wird hier auch von Predictive Maintenance gesprochen, was in Deutsch sowas wie „vorausschauende Wartung“ bedeutet.

Logistik

Auch in der Logistik kann Data Mining eingesetzt werden um Geschäftsprozesse und Lieferketten zu optimieren. Folgende Anwendungsfälle gibt es in der Logistik:

  • Routenoptimierung
  • Prognose von logistischen Bewegungen
  • Prognose von Nachfrage
  • Erkennen von Zusammenhängen in Versorgungsketten

Data Mining Prozess CRISP-DM

Im Jahr 2000 wurde mit dem CRISP-DM Modell ein einheitlicher Standard für Data Mining Prozesse geschaffen. Es ist die grundsätzliche Zielsetzung des CRISP-DM-Modells, einen branchen-, software- und anwendungsunabhängigen standardisierten Prozessablauf des Data Minings für Unternehmen bereitzustellen.

CRISP-DM Vorgehensmodell einfach erklärt.

Die ursprüngliche Veröffentlichung zum CRISP-DM-Modell finden Sie hier.

Ergebnisse des Data Minings sollen durch das CRISP-DM-Modell schneller und präziser zur Verfügung gestellt werden. Im Folgenden wird der CRISP-DM dargestellt, dieser ist in sechs Schritte unterteilt:

Data Mining CRISP Process
CRISP-DM Modell nach Shearer
  • 1. Phase: Business Understanding (Aufgabendefinition)
  • 2. Phase: Data Understanding (Auswahl der relevanten Datenbestände)
  • 3. Phase: Data Preparation (Datenaufbereitung)
  • 4. Phase: Modeling (Auswahl und Anwendung von Methoden)
  • 5. Phase: Evaluation (Bewertung und Interpretation der Ereignisse)
  • 6. Phase: Deployment (Anwendung der Ergebnisse)

Die einzelnen Phasen, sowie die Iterationen der einzelnen Phasen dieses Modells, werden je nach Problemstellung unterschiedlich gewichtet. Jede Phase dieses Modells spielt eine entscheidende Rolle für den Erfolg eines Projektes. In der Abbildung wird erkenntlich, dass das CRISP-DM-Modell einen Kreislauf darstellt und somit iterativ ist.

Wer im Detail über den CRISP-DM-Prozess erfahren will, kann dies in diesem Artikel von mir tun.

Data Mining Tools und Programmiersprachen

Am Markt gibt es etliche Data Mining Tools und Softwareanbieter. Dieser Markt ist durch den Data Science Boom in den letzten Jahren extrem gewachsen. Dadurch haben sich auch Script- und Programmiersprachen entwickelt, mit denen sich Data Mining Modelle erstellen lassen.

Data Mining Tools

Am Markt gibt es verschiedene Data Mining Tools und Programmier- oder Scriptingsprachen, die sich zur Mustererkennung in Daten nutzen lassen. Im Folgenden stelle ich Ihnen die bekanntesten Tool vor.

KNIME

KNIME steht für „Konstanzer Information Miner“ und ist eine kostenlose Open Source Analytics Plattform. Das Tool stellt verschiedene Komponenten aus maschinellem Lernen und Data Mining zur Verfügung. Die Analyse findet auf einer grafischen Oberfläche statt und bietet hier eine visuelle Möglichkeit Daten zu verarbeiten. Dadurch braucht man kaum Programmierkenntnisse und ist für den Einstieg in das Themenfeld Data Science gut geeignet.

Viele Schnittstellen zu verschiedensten Datenbanken, Big Data Systemen oder Cloudspeichern, machen die Softeware zu einem guten Werkzeugkasten für jeden Data Scientist. Teilweise wird das Data Mining Tool auch für verschiedenste ETL genutzt, wobei der Fokus stark auf den analytischen Fähigkeiten liegt. Wer KNIME professionell im Unternehmen nutzen möchte muss dennoch eine Lizenz kaufen, da für die regelmäßige Ausführung (Deployment), ein bestimmter Server benötigt wird.

Rapidminer

Auch RapidMiner ist ein Data Mining Tool, was über eine grafische Oberfläche bedient wird. Die Software wurde 2001 am Lehrstuhl für künstliche Intelligenz an der Technischen Universität Dortmund entwickelt. Das Tool wird häufig in der Forschung, an Hochschulen aber auch bei wirtschaftlichen Anwendungen genutzt.

Data Mining mit Programmiersprachen

R

Die R ist eine Open Source Programmiersprache für statistische Berechnungen, Data Mining und die Erstellung von Grafiken. R verfügt über eine extrem große Anzahl von statistischen Bibliotheken und verschiedensten Algorithmen (Zeitreihen, Klassifikation, Regression, Assoziation) für Data Mining.

Klarer Trend: Python gewinnt an Popularität.

R wurde vor allem um das Jahr 2010 extrem häufig für Data Mining Anwendungen genutzt, verlor ein bisschen an Popularität durch die Programmiersprache Python. An Hochschulen und in der Forschung wird R heute noch sehr häufig verwendet.

Python

Die Programmiersprache Python ist für maschinelles Lernen und Data Mining am populärsten. Python bietet alle wichtigen Methoden für die Verarbeitung von Daten und die Erstellung von Data Mining Modellen. Besonders durch das Thema Deep Learning hat Python an Nutzern dazugewonnen, denn viele Frameworks sind in Python geschrieben. Heute ist Python der Standard und jeder Data Scientist sollte Python beherrschen.

Statistik und Data Mining Methoden im Vergleich

Häufig werden Data Mining Methoden mit Statistik verglichen, die Unterschiede liegen vor allem in der Zielstellung, Datenmenge und der Berechnung.

StatistikData Mining
Datenmengekleine Datenmengen mit Fallzahl von 30größere Datenmengen bis hin zu Big Data
ÜbertragbarkeitSchlussfolgerungen erfolgen anhand einer Stichprobe der GrundgesamtheitGrundgesamtheit existiert oft nicht
Stichprobe ist nicht definiert
Datenbestände ändern sich ständig
BerechnungAuf dem Papier und mit Taschenrechner möglichComputer oder Server
VoraussetzungenEs muss sehr genau geprüft werden welches Verfahren zum Einsatz kommt.Data Mining Methoden sind nicht mehr theoretisch begründet und daher an den Daten verprobt.
ZielstellungTesten von HypothesenGenerieren von Hypothesen
Statsitik vs. Data Mining: wo sind die Unterschiede?

Data Mining und Big Data

Der Begriff Data Mining wird häufig im Zusammenhang mit Big Data verwendet. Diese Begriffe haben jedoch nicht die gleiche Bedeutung.

Big Data bezieht sich auf die Verarbeitung sehr großer Datenmengen, die sich mit den herkömmlichen Methoden nicht aufbereiten lassen. Es geht eher um die Plattform, die die Verarbeitung großer Datenmengen erst möglich macht.

Die Data-Mining-Technik wird häufig auf große Datenmengen (Big Data) angewendet, da durch die große Datenmenge die herkömmliche Analyse von Daten kaum noch sinnvoll ist. Hier kommt Data Mining zum Einsatz, um beispielsweise Muster zu erlernen und dann Vorhersagen für die Zukunft zu treffen.

Ein weiterer Vorteil von großen Datenmengen, ist dass die Data Mining Methoden oft deutlich besser funktionieren, wenn viele Beispieldatensätze für das Training der Modelle zur Verfügung stehen.

Unterschied zwischen Big Data und Data Mining

Folgende Tabelle erklärt den Unterschied zwischen Big Data und Data Mining:

Data Mining Big Data
Identifiziert und extrahiert relevante Informationen und Muster aus kleinen oder großen Datensätzen. Sammeln, speichern und verarbeiten von großen Datenmengen.
Nutzt verschiedene Techniken der künstlichen Intelligenz und des maschinellen Lernens. Durch die enorme Größe der Daten, ist es unmöglich diese auf herkömmlicher Soft- und Hardware zu halten. Big Data arbeitet auf verteilten Infrastrukturen (Big Data Technologie).
Liefert konkrete Resultate aus Analysen und Vorhersagemodellen. Spezielle Technologie und Methoden werden benötigt, um die Menge der Daten zu verarbeiten.
Erstellt Prognosen, Vorhersagen von Wahrscheinlichkeiten und Segmentierungen. Big Data dient als Eingabe für Data Mining und maschinelles Lernen.
Transformiert Informationen in Wissen und konkrete Handlungsempfehlungen. Speichert Daten, um diese für Business Anwendungen oder Systeme aufzubereiten.
Unterschied Data Mining vs. Big Data

Zusammenfassung

Data Mining hilft Muster und Zusammenhänge auf großen Datenmengen zu identifizieren. Dieser interdisziplinäre Ansatz nutzt dafür Methoden aus der Statistik, Informatik und maschinelles Lernen. In der Praxis lassen sich anhand verschiedener Data Mining Methoden genaue Vorhersagen für die Zukunft zu treffen oder Trends und Anomalien frühzeitig zu erkennen.

Das hilft Unternehmen dabei bessere Entscheidungen auf Basis von Daten zu treffen. So lassen sich Kundenbedürfnisse führzeitig erkennen, Marketingkampagnen darauf zuschneiden und so den Umsatz steigern. 

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Laurenz Wuttke datasolut Gmbh
Ich freue mich, wenn Sie sich zu unserem Newsletter anmelden.

Jetzt zum Newsletter anmelden!

Ihr Mehrwert:

  • Tipps zur Marketingoptimierung
  • Interessante Case Studies
  • Bewährte Praxistipps

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.

KI-im-CRM Kopie

Whitepaper:
Wie künstliche Intelligenz das CRM verändert!

  • 10% mehr Zeit durch Automatisierung.
  • bis zu 300% mehr Conversions durch die richtigen Angebote zur richtigen Zeit.
  • 35% mehr User-Engagement durch personalisierte Kampagnen.

Trage deine E-Mail-Adresse ein, um die KI-Fallstudien zu erhalten: