Clusteranalysen sind beliebte Methoden, um Daten nach einem Ähnlichkeitsmaß in homogene Gruppen einzuteilen. Sie finden Anwendung in Wirtschaft und Forschung. Dieser Artikel zeigt, was eine Clusteranalyse ist, welche Arten es gibt und welche Anwendungsbeispiele es gibt.
Was ist eine Clusteranalyse?
Die Clusteranalyse ist ein exploratives Verfahren, um Datensätze nach ihrer Ähnlichkeit in Gruppen einzuteilen. Für die Clusteranalyse können verschiedene Kriterien und Merkmale verwendet werden, anhand derer die Ähnlichkeit der einzelnen Daten bestimmt wird.
Wie wird eine Clusteranalyse durchgeführt?
Eine Clusteranalyse basiert auf der Berechnung eines Ähnlichkeitsmaßes und gehört zu den unüberwachten maschinellen Lernverfahren. Es gibt verschiedene Methoden zur Berechnung des Ähnlichkeitsmaßes:
- Euklidische Distanz
- Tanimoto Index
- Nächster-Nachbar-Algorithmus und viele andere
Die Ähnlichkeit wird für jedes zu vergleichende Merkmal und für alle Daten berechnet. Auf diese Weise kann für jedes Merkmal bestimmt werden, welche Daten innerhalb eines Datensatzes am ähnlichsten und welche am unähnlichsten sind.
Es gibt zahlreiche Algorithmen, um Daten in Cluster einzuteilen. Welches Verfahren am besten geeignet ist, hängt in der Regel von der Fragestellung ab. Häufig werden die Ergebnisse verschiedener Verfahren am Ende miteinander verglichen, um das richtige Verfahren zu ermitteln. Die bekanntesten Verfahren sind:
Die k-Means Methode
Das k-Means Verfahren ist ein iterativer Algorithmus. Mit jedem Iterationsschritt werden die Clusterzentren neu bestimmt und die Ähnlichkeit einzelner Datenpunkte zum Clusterzentrum durch die euklidische Distanz wiedergegeben. Ein Datenpunkt wird einem Cluster zugeordnet, wenn die euklidische Distanz zu diesem am geringsten ist.
Dieser Machine Learning Algorithmus ist zwar recht einfach, die Anzahl der Cluster muss jedoch vorab festgelegt werden. Ein großer Nachteil dieses Algorithmus ist auch, dass er sehr anfällig auf Ausreißer reagiert.
Ein Beispiel für K-Mean anhand einer Kundensegmentierung findest du in diesem Video:
Die Hierarchische Clusteranalyse
Die hierarchische Clusteranalyse basiert ebenfalls auf Distanzmaßen. Es werden zwei Vertreter unterschieden:
- die divisiven Clusterverfahren und
- die agglomerativen Verfahren.
Die divisiven Verfahren gehören zu den Top-Down-Verfahren, bei denen zunächst alle Objekte des Datensatzes zu einem Cluster gehören. Schrittweise werden dann immer mehr Cluster gebildet. Die agglomerativen Verfahren verfolgen dagegen den umgekehrten Ansatz (Bottom-up-Verfahren). Jedes Objekt bildet zunächst ein eigenes Cluster, diese werden dann Schritt für Schritt zusammengefasst, bis alle Objekte zu einem Cluster gehören. Einmal gebildete Cluster können nicht mehr verändert werden.
Die Art der Partitionierung ist jedoch vom Anwender abhängig. Dies ist neben dem hohen Rechenaufwand der größte Nachteil dieser Verfahren. Die Anzahl der Cluster muss jedoch nicht im Voraus bekannt sein.
Das Two-Stage Clustering
Das zweistufige Clustering ist das komplexeste Verfahren, da es die beiden zuvor genannten Verfahren kombiniert. Um zunächst die Anzahl der Cluster zu bestimmen, wird ein hierarchisches Verfahren verwendet. Dies kann als Initialisierungsschritt angesehen werden. Außerdem wird ein initiales Clustering bereitgestellt. Anschließend nutzt das k-Means Verfahren diese Informationen, baut darauf auf und verbessert die Ergebnisse.
Welche Voraussetzungen gibt es bei der Clusteranalyse?
Je nach Methode gibt es oft unterschiedliche Anforderungen, z. B. benötigt die k-Means-Methode und alle Erweiterungen dieser Methode die Anzahl der Cluster als Parameter. Es gibt aber auch Anforderungen, die generell erfüllt sein müssen.
Ein Cluster sollte in sich möglichst homogen sein und sich klar von anderen Clustern unterscheiden. Eine eindeutige Abgrenzung muss gewährleistet sein. Folgende Bedingungen sollten daher erfüllt sein:
- Größe des Datensatzes: Ein aussagekräftiges Ergebnis kann unter Umständen nur mit einem hinreichend großen Datensatz erzielt werden. Je nach Aufgabenstellung ist also abzuwägen, ob die Datenmenge ausreichend ist.
- Normierung der Daten: liegen große Unterschiede im Wertebereich der Daten vor, sollte eine vorherige Normierung der Daten erfolgen
- Ausreißerelimination: Ausreißer können die Ergebnisse stark verfälschen. Die Daten sollten also zunächst auf mögliche Extremwerte analysiert und bewertet werden und Ausreißer anschließend eliminiert werden.
- Verzerrung: Bestehen starke Korrelationen zwischen den Daten, könnten die Ergebnisse am Ende stark verzerrt werden. Dies gilt es zu vermeiden.
Welche Anwednungsbeispiele gibt es für die Clusteranalyse?
Clusteranalysen sind mittlerweile in den verschiedensten Bereichen ein gängiges Mittel zur Gruppierung von Daten. Einerseits sind sie sehr einfach in der Anwendung, andererseits reduziert die zunehmende Automatisierung den Aufwand für die Durchführung der Verfahren.
Kundensegmentierung mit KI
Dies macht den Zugang aus den unterschiedlichsten Bereichen einfacher. Clusteranalysen finden unter anderem Anwendung in den folgenden Bereichen:
- Marketing: Kunden zu analysieren und in die richtigen Zielgruppen einzusortieren, kann im Marketing ein enormer Wettbewerbsvorteil sein. Hier werden Clusteranalysen verwendet, um ähnliche Kunden aus dem gesamten Kundenstamm zu identifizieren und individuelle Werbestrategien für diese Kunden zu entwickeln. Ein Beispiel zur Kundenanalyse findest du hier.
- Medizin, Psychologie: Auch Verhaltensweisen oder Krankheitsbilder können in Cluster zusammengefasst werden. Auf dieser Grundlage lassen sich dann passende Therapien entwickeln.
- Erdsystemforschung: Clusteranalysen sind zudem auch wichtige Mittel in der Erdsystemforschung. Statt eindimensionaler, strukturierter Daten lassen sich auch Bilder hinsichtlich auffälliger Cluster analysieren. Satellitenbilder lassen sich so häufig auf diese Weise auswerten, um so genannte Landbedeckungsklassen zu bestimmen und über die Zeit deren Veränderung.