Machine Learning

Clusteranalyse einfach erklärt

Clusteranalysen sind beliebte Methoden, um Daten nach einem Ähnlichkeitsmaß in homogene Gruppen einzuteilen. Anwendung finden Sie in der Wirtschaft und Forschung. In diesem Aritkel zeigen, was eine Clusteranalyse ist, welche Arten es gibt und welche Anwendungsbeispiele es gibt.

Was ist eine Clusteranalyse? 

Eine Clusteranalyse ist ein exploratives Verfahren, um Datensätze hinsichtlich ihrer Ähnlichkeit in Gruppen einzuteilen. Für die Clusteranalyse lassen sich verschiedene Kriterien und Merkmale nutzen, aufgrund derer die Ähnlichkeit der einzelnen Daten bestimmt wird.

Wie wird eine Clusteranalyse durchgeführt? 

Eine Clusteranalyse basiert auf der Berechnung eines Ähnlichkeitsmaßes und zählen zu dem unüberwachten Machine Learning Methoden. Für die Berechnung des Ähnlichkeitsmaßes gibt es unterschiedliche Methoden: 

  • Euklidische Distanz 
  • Tanimoto Index 
  • Nächste Nachbar Algorithmus und viele weitere. 

Die Ähnlichkeit wird für jedes zu vergleichende Merkmal und alle Daten berechnet. Auf diese Weise kann für jedes Merkmal bestimmt werden, welche Daten innerhalb einer Datenmenge sich am meisten ähneln und welche am unterschiedlichsten sind.  

Es gibt zahlreiche Algorithmen, um Daten in Cluster einzuteilen. Welche Methode sich am besten eignet, hängt generell von der Fragestellung ab. Oftmals werden die Ergebnisse verschiedener Verfahren am Ende miteinander verglichen, um das Verfahren richtige zu ermitteln. Die bekanntesten Vertreter sind: 

Die k-Means Methode

Das k-Means Verfahren ist ein iterativer Algorithmus. Mit jedem Iterationsschritt werden die Clusterzentren neu bestimmt und die Ähnlichkeit einzelner Datenpunkte zum Clusterzentrum durch die euklidische Distanz wiedergegeben. Ein Datenpunkt wird einem Cluster zugeordnet, wenn die euklidische Distanz zu diesem am geringsten ist.

Clusteranalyse mit dem K-Means Algorithmus
K-Means Clusteranalyse

Dieser Machine Learning Algorithmus ist zwar recht einfach, die Anzahl der Cluster muss jedoch vorab festgelegt werden. Ein großer Nachteil dieses Algorithmus ist auch, dass er sehr anfällig auf Ausreißer reagiert.  

Ein Beispiel für K-Mean anhand einer Kundensegmentierung findest du in diesem Video:

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Clusteranalyse anhand von einer Kundensegmentierung erklärt.

Die Hierarchische Clusteranalyse 

Die hierarchische Clusteranalyse basiert ebenfalls auf Distanzmaßen. Es werden zwei Vertreter unterschieden:  

  • die divisiven Clusterverfahren und  
  • die agglomerativen Verfahren.  

Die divisiven Verfahren gehören zu den Top-down Verfahren, bei denen zunächst alle Objekte des Datensatzes zu einem Cluster gehören. Schrittweise werden dann immer mehr Cluster gebildet. Die agglomerativen Verfahren hingegen verfolgen den umgekehrten Ansatz (Bottom-Up Verfahren). Jedes Objekt bildet zunächst sein eigenes Cluster, sie werden Schritt für Schritt zusammengefügt, bis alle Objekte zu einem Cluster gehören. Einmal gebildete Cluster können dann nicht mehr verändert werden.

Wie partitioniert werden soll, ist jedoch vom Anwender abhängig. Dies ist neben der aufwändigen Berechnung der größte Nachteil dieser Methoden. Allerdings ist es hierbei nicht notwendig zuvor die Anzahl der Cluster zu kennen. 

Das Two-Stage Clustering 

Am komplexesten ist das Two-Stage Clustering, da dieses Verfahren beide zuvor genannten miteinander kombiniert. Um zunächst die Anzahl der Cluster zu bestimmen wird ein hierarchisches Verfahren verwendet. Dies kann als Initialisierungsschritt betrachtet werden. Auch wird ein initiales Clustering bereitgestellt. Anschließend verwendet das k-Means Verfahren diese Informationen, baut darauf auf und verbessert die Ergebnisse. 

Welche Voraussetzungen gibt es bei der Clusteranalyse? 

Je nach Methode fallen oftmals unterschiedliche Anforderungen an, beispielsweise erfordert die k-Means Methode und sämtliche Erweiterungen dieses Verfahrens die Anzahl der Cluster als Parameter. Es gibt aber auch Voraussetzungen, die generell zu erfüllen sind.  

Ein Cluster soll in sich maximal homogen sein und klar von anderen Clustern zu unterscheiden sein. Eine eindeutige Abgrenzung ist zu gewährleisten. Daher sollten folgende Bedingungen erfüllt werden: 

  • Größe des Datensatzes: Ein aussagekräftiges Ergebnis kann unter Umständen nur mit einem hinreichend großen Datensatz erzielt werden. Je nach Aufgabenstellung ist also abzuwägen, ob die Datenmenge ausreichend ist. 
  • Normierung der Daten: liegen große Unterschiede im Wertebereich der Daten vor, sollte eine vorherige Normierung der Daten erfolgen 
  • Ausreißerelimination: Ausreißer können die Ergebnisse stark verfälschen. Die Daten sollten also zunächst auf mögliche Extremwerte analysiert und bewertet werden und Ausreißer anschließend eliminiert werden. 
  • Verzerrung: Bestehen starke Korrelationen zwischen den Daten, könnten die Ergebnisse am Ende stark verzerrt werden. Dies gilt es zu vermeiden.  

Welche Anwednungsbeispiele gibt es für die Clusteranalyse? 

Clusteranalysen sind mittlerweile in den unterschiedlichsten Bereichen gängige Mittel zur Gruppierung von Daten. Zum einen sind diese sehr einfach anwendbar, zum anderen reduziert sich aber auch durch die stetige Automatisierung der Aufwand, der mit der Implementierung der Verfahren verbunden ist.

Kundensegmentierung mit KI

Jetzt mehr erfahren

Dies macht den Zugang aus den unterschiedlichsten Bereichen einfacher. Clusteranalysen finden unter anderem Anwendung in den folgenden Bereichen: 

  • Marketing: Kunden zu analysieren und in die richtigen Zielgruppen einzusortieren, kann im Marketing ein enormer Wettbewerbsvorteil sein. Hier werden Clusteranalysen verwendet, um ähnliche Kunden aus dem gesamten Kundenstamm zu identifizieren und individuelle Werbestrategien für diese Kunden zu entwickeln. Ein Beispiel zur Kundenanalyse findest du hier.
  • Medizin, Psychologie: Auch Verhaltensweisen oder Krankheitsbilder können in Cluster zusammengefasst werden. Auf dieser Grundlage lassen sich dann passende Therapien entwickeln. 
  • Erdsystemforschung: Clusteranalysen sind zudem auch wichtige Mittel in der Erdsystemforschung. Statt eindimensionaler, strukturierter Daten lassen sich auch Bilder hinsichtlich auffälliger Cluster analysieren. Satellitenbilder lassen sich so häufig auf diese Weise auswerten, um so genannte Landbedeckungsklassen zu bestimmen und über die Zeit deren Veränderung.  

Weiterlesen

Künstliche Intelligenz einfach erklärt! Definition, Arten und wo KI eingesetzt wird

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik und ermöglicht Maschinen autonom Probleme zu lösen und Entscheidungen zu treffen. Schon heute wird KI in vielen Anwendungen eingesetzt, um Prozesse zu […]

Was ist ein Algorithmus?

Woher weiß eine Software, wer die Liebe meines Lebens ist? Das versprechen zumindest die großen Dating-Portale – dabei hat das Programm keine Ahnung von Partnerschaft, geschweige denn von Liebe. Aber […]

Amazon Personalize: Funktionen, Anwendung und Vorteile

Der von Amazon Web Services (AWS) angebotene Service namens Amazon Personalize bietet Nutzern die Möglichkeit, die gleiche Machine Learning-Technologie zur Personalisierung zu verwenden, welche Amazon selbst nutzt. Dazu werden vom Nutzer keinerlei Erfahrungen […]

Was ist ein Machine Learning Engineer?

Ein Machine Learning Engineer ist ein wichtiger Bestandteil eines Data Science Teams. Er kümmert sich darum, dass Machine Learning Modelle in Produktion eingesetzt und das alle nötigen Prozesse dafür ineinander […]

Amazon Comprehend: Anwendung, Funktionen und Vorteile

Amazon Web Services (AWS) stellt einen voll verwalteten Natural Language Processing-Service namens Amazon Comprehend zur Verfügung. Amazon Comprehend bietet dem Nutzer die Möglichkeit, Informationen aus Texten zu extrahieren und Zusammenhänge zu erkennen. Durch Amazon Comprehend lassen sich zudem Bereiche wie die Extraktion von […]

AWS Transcribe

AWS Transcribe ist ein von Amazon angebotener Service, der zur Transkription von Audiodateien und gesprochener Sprache in Textform genutzt wird. Auf Basis von Deep-Learning-Prozessen agiert der Dienst automatisiert und hilft bei der […]

Was ist Amazon SageMaker?

Amazon SageMaker ist eine Everything-as-a-service-Cloud-Maschinenlernplattform von Amazon Web Services. Amazon SageMaker wird vor allem von Datenwissenschaftler und Entwicklern genutzt, um Modelle auf Basis von Machine Learning, in der Cloud zu erstellen, trainieren und einzusetzen. Das […]

Was ist Supervised Learning (Überwachtes Lernen)?

Supervised Learning ist eine Methode des maschinellen Lernens, welche aufgrund einer Analyse von Eingangsdaten mit vorgegebener Zielvariable präzise Empfehlungen ausgibt und Prognosen macht. Dieser Prozess ist durch die notwendige Datenvorverarbeitung […]

Text Mining: Definition, Methoden und Anwendung

Eine der herausfordernden Aufgaben in der Informatik besteht heute im Umgang mit großen Textmengen und der Extraktion von relevanten Daten aus Dokumenten mit unterschiedlicher und uneinheitlicher Formatierung. Das Text Mining […]
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Termin buchen