Clusteranalyse einfach erklärt

Clusteranalysen sind beliebte Methoden, um Daten nach einem Ähnlichkeitsmaß in homogene Gruppen einzuteilen. Anwendung finden Sie in der Wirtschaft und Forschung. In diesem Aritkel zeigen, was eine Clusteranalyse ist, welche Arten es gibt und welche Anwendungsbeispiele es gibt.

Was ist eine Clusteranalyse? 

Eine Clusteranalyse ist ein exploratives Verfahren, um Datensätze hinsichtlich ihrer Ähnlichkeit in Gruppen einzuteilen. Für die Clusteranalyse lassen sich verschiedene Kriterien und Merkmale nutzen, aufgrund derer die Ähnlichkeit der einzelnen Daten bestimmt wird.

Wie wird eine Clusteranalyse durchgeführt? 

Eine Clusteranalyse basiert auf der Berechnung eines Ähnlichkeitsmaßes und zählen zu dem unüberwachten Machine Learning Methoden. Für die Berechnung des Ähnlichkeitsmaßes gibt es unterschiedliche Methoden: 

  • Euklidische Distanz 
  • Tanimoto Index 
  • Nächste Nachbar Algorithmus und viele weitere. 

Die Ähnlichkeit wird für jedes zu vergleichende Merkmal und alle Daten berechnet. Auf diese Weise kann für jedes Merkmal bestimmt werden, welche Daten innerhalb einer Datenmenge sich am meisten ähneln und welche am unterschiedlichsten sind.  

Es gibt zahlreiche Algorithmen, um Daten in Cluster einzuteilen. Welche Methode sich am besten eignet, hängt generell von der Fragestellung ab. Oftmals werden die Ergebnisse verschiedener Verfahren am Ende miteinander verglichen, um das Verfahren richtige zu ermitteln. Die bekanntesten Vertreter sind: 

Die k-Means Methode

Das k-Means Verfahren ist ein iterativer Algorithmus. Mit jedem Iterationsschritt werden die Clusterzentren neu bestimmt und die Ähnlichkeit einzelner Datenpunkte zum Clusterzentrum durch die euklidische Distanz wiedergegeben. Ein Datenpunkt wird einem Cluster zugeordnet, wenn die euklidische Distanz zu diesem am geringsten ist.

Clusteranalyse mit dem K-Means Algorithmus
K-Means Clusteranalyse

Dieser Machine Learning Algorithmus ist zwar recht einfach, die Anzahl der Cluster muss jedoch vorab festgelegt werden. Ein großer Nachteil dieses Algorithmus ist auch, dass er sehr anfällig auf Ausreißer reagiert.  

Ein Beispiel für K-Mean anhand einer Kundensegmentierung findest du in diesem Video:

Clusteranalyse anhand von einer Kundensegmentierung erklärt.

Die Hierarchische Clusteranalyse 

Die hierarchische Clusteranalyse basiert ebenfalls auf Distanzmaßen. Es werden zwei Vertreter unterschieden:  

  • die divisiven Clusterverfahren und  
  • die agglomerativen Verfahren.  

Die divisiven Verfahren gehören zu den Top-down Verfahren, bei denen zunächst alle Objekte des Datensatzes zu einem Cluster gehören. Schrittweise werden dann immer mehr Cluster gebildet. Die agglomerativen Verfahren hingegen verfolgen den umgekehrten Ansatz (Bottom-Up Verfahren). Jedes Objekt bildet zunächst sein eigenes Cluster, sie werden Schritt für Schritt zusammengefügt, bis alle Objekte zu einem Cluster gehören. Einmal gebildete Cluster können dann nicht mehr verändert werden.

Wie partitioniert werden soll, ist jedoch vom Anwender abhängig. Dies ist neben der aufwändigen Berechnung der größte Nachteil dieser Methoden. Allerdings ist es hierbei nicht notwendig zuvor die Anzahl der Cluster zu kennen. 

Das Two-Stage Clustering 

Am komplexesten ist das Two-Stage Clustering, da dieses Verfahren beide zuvor genannten miteinander kombiniert. Um zunächst die Anzahl der Cluster zu bestimmen wird ein hierarchisches Verfahren verwendet. Dies kann als Initialisierungsschritt betrachtet werden. Auch wird ein initiales Clustering bereitgestellt. Anschließend verwendet das k-Means Verfahren diese Informationen, baut darauf auf und verbessert die Ergebnisse. 

Welche Voraussetzungen gibt es bei der Clusteranalyse? 

Je nach Methode fallen oftmals unterschiedliche Anforderungen an, beispielsweise erfordert die k-Means Methode und sämtliche Erweiterungen dieses Verfahrens die Anzahl der Cluster als Parameter. Es gibt aber auch Voraussetzungen, die generell zu erfüllen sind.  

Ein Cluster soll in sich maximal homogen sein und klar von anderen Clustern zu unterscheiden sein. Eine eindeutige Abgrenzung ist zu gewährleisten. Daher sollten folgende Bedingungen erfüllt werden: 

  • Größe des Datensatzes: Ein aussagekräftiges Ergebnis kann unter Umständen nur mit einem hinreichend großen Datensatz erzielt werden. Je nach Aufgabenstellung ist also abzuwägen, ob die Datenmenge ausreichend ist. 
  • Normierung der Daten: liegen große Unterschiede im Wertebereich der Daten vor, sollte eine vorherige Normierung der Daten erfolgen 
  • Ausreißerelimination: Ausreißer können die Ergebnisse stark verfälschen. Die Daten sollten also zunächst auf mögliche Extremwerte analysiert und bewertet werden und Ausreißer anschließend eliminiert werden. 
  • Verzerrung: Bestehen starke Korrelationen zwischen den Daten, könnten die Ergebnisse am Ende stark verzerrt werden. Dies gilt es zu vermeiden.  

Welche Anwednungsbeispiele gibt es für die Clusteranalyse? 

Clusteranalysen sind mittlerweile in den unterschiedlichsten Bereichen gängige Mittel zur Gruppierung von Daten. Zum einen sind diese sehr einfach anwendbar, zum anderen reduziert sich aber auch durch die stetige Automatisierung der Aufwand, der mit der Implementierung der Verfahren verbunden ist.

Dies macht den Zugang aus den unterschiedlichsten Bereichen einfacher. Clusteranalysen finden unter anderem Anwendung in den folgenden Bereichen: 

  • Marketing: Kunden zu analysieren und in die richtigen Zielgruppen einzusortieren, kann im Marketing ein enormer Wettbewerbsvorteil sein. Hier werden Clusteranalysen verwendet, um ähnliche Kunden aus dem gesamten Kundenstamm zu identifizieren und individuelle Werbestrategien für diese Kunden zu entwickeln. Ein Beispiel zur Kundenanalyse findest du hier.
  • Medizin, Psychologie: Auch Verhaltensweisen oder Krankheitsbilder können in Cluster zusammengefasst werden. Auf dieser Grundlage lassen sich dann passende Therapien entwickeln. 
  • Erdsystemforschung: Clusteranalysen sind zudem auch wichtige Mittel in der Erdsystemforschung. Statt eindimensionaler, strukturierter Daten lassen sich auch Bilder hinsichtlich auffälliger Cluster analysieren. Satellitenbilder lassen sich so häufig auf diese Weise auswerten, um so genannte Landbedeckungsklassen zu bestimmen und über die Zeit deren Veränderung.  

Ähnliche Einträge

Ihr Ansprechpartner: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln künstliche Intelligenz, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.