Erstgespräch vereinbaren

Laurenz Wuttke · Zuletzt aktualisiert: 10. April 2024

Clusteranalyse einfach erklärt

5 Minuten Lesezeit

Machine Learning

Zusammenfassung

Clusteranalyse ist ein Verfahren aus dem Machine Learning, das Daten automatisch anhand von Ähnlichkeiten in Gruppen einteilt
Ziel ist es, Muster und Strukturen in Daten zu erkennen, ohne vorab definierte Kategorien zu haben (unüberwachtes Lernen)
Wie sie funktioniert: Datenpunkte werden über Distanz- oder Ähnlichkeitsmaße verglichen und zu möglichst homogenen Clustern zusammengefasst
Typische Verfahren sind z. B. k-Means, hierarchisches Clustering oder dichtebasierte Methoden wie DBSCAN
Anwendungsfälle: Kundensegmentierung, Mustererkennung, Anomalieerkennung oder Analyse von großen Datenmengen

Über den Autor

Unser CTO Laurenz ist Deutschlands einziger Databricks MVP. Als Databricks Champion und Experte für KI-Strategien realisiert er skalierbare Datenplattformen. Auf…

Mehr über Laurenz Wuttke

Was ist eine Clusteranalyse?
Wie wird eine Clusteranalyse durchgeführt?
Welche Voraussetzungen gibt es bei der Clusteranalyse?
Welche Anwednungsbeispiele gibt es für die Clusteranalyse?

Clusteranalysen sind beliebte Methoden, um Daten nach einem Ähnlichkeitsmaß in homogene Gruppen einzuteilen. Sie finden Anwendung in Wirtschaft und Forschung. Dieser Artikel zeigt, was eine Clusteranalyse ist, welche Arten es gibt und welche Anwendungsbeispiele es gibt.

Was ist eine Clusteranalyse?

Die Clusteranalyse ist ein exploratives Verfahren, um Datensätze nach ihrer Ähnlichkeit in Gruppen einzuteilen. Für die Clusteranalyse können verschiedene Kriterien und Merkmale verwendet werden, anhand derer die Ähnlichkeit der einzelnen Daten bestimmt wird.

Wie wird eine Clusteranalyse durchgeführt?

Eine Clusteranalyse basiert auf der Berechnung eines Ähnlichkeitsmaßes und gehört zu den unüberwachten maschinellen Lernverfahren. Es gibt verschiedene Methoden zur Berechnung des Ähnlichkeitsmaßes:

Euklidische Distanz
Tanimoto Index
Nächster-Nachbar-Algorithmus und viele andere

Die Ähnlichkeit wird für jedes zu vergleichende Merkmal und für alle Daten berechnet. Auf diese Weise kann für jedes Merkmal bestimmt werden, welche Daten innerhalb eines Datensatzes am ähnlichsten und welche am unähnlichsten sind.

Es gibt zahlreiche Algorithmen, um Daten in Cluster einzuteilen. Welches Verfahren am besten geeignet ist, hängt in der Regel von der Fragestellung ab. Häufig werden die Ergebnisse verschiedener Verfahren am Ende miteinander verglichen, um das richtige Verfahren zu ermitteln. Die bekanntesten Verfahren sind:

Die k-Means Methode

Das k-Means Verfahren ist ein iterativer Algorithmus. Mit jedem Iterationsschritt werden die Clusterzentren neu bestimmt und die Ähnlichkeit einzelner Datenpunkte zum Clusterzentrum durch die euklidische Distanz wiedergegeben. Ein Datenpunkt wird einem Cluster zugeordnet, wenn die euklidische Distanz zu diesem am geringsten ist.

Clusteranalyse mit dem K-Means Algorithmus — K-Means Clusteranalyse

Dieser Machine Learning Algorithmus ist zwar recht einfach, die Anzahl der Cluster muss jedoch vorab festgelegt werden. Ein großer Nachteil dieses Algorithmus ist auch, dass er sehr anfällig auf Ausreißer reagiert.

Ein Beispiel für K-Mean anhand einer Kundensegmentierung findest du in diesem Video:

Clusteranalyse anhand von einer Kundensegmentierung erklärt.

Die Hierarchische Clusteranalyse

Die hierarchische Clusteranalyse basiert ebenfalls auf Distanzmaßen. Es werden zwei Vertreter unterschieden:

die divisiven Clusterverfahren und
die agglomerativen Verfahren.

Die divisiven Verfahren gehören zu den Top-Down-Verfahren, bei denen zunächst alle Objekte des Datensatzes zu einem Cluster gehören. Schrittweise werden dann immer mehr Cluster gebildet. Die agglomerativen Verfahren verfolgen dagegen den umgekehrten Ansatz (Bottom-up-Verfahren). Jedes Objekt bildet zunächst ein eigenes Cluster, diese werden dann Schritt für Schritt zusammengefasst, bis alle Objekte zu einem Cluster gehören. Einmal gebildete Cluster können nicht mehr verändert werden.

Die Art der Partitionierung ist jedoch vom Anwender abhängig. Dies ist neben dem hohen Rechenaufwand der größte Nachteil dieser Verfahren. Die Anzahl der Cluster muss jedoch nicht im Voraus bekannt sein.

Das Two-Stage Clustering

Das zweistufige Clustering ist das komplexeste Verfahren, da es die beiden zuvor genannten Verfahren kombiniert. Um zunächst die Anzahl der Cluster zu bestimmen, wird ein hierarchisches Verfahren verwendet. Dies kann als Initialisierungsschritt angesehen werden. Außerdem wird ein initiales Clustering bereitgestellt. Anschließend nutzt das k-Means Verfahren diese Informationen, baut darauf auf und verbessert die Ergebnisse.

Welche Voraussetzungen gibt es bei der Clusteranalyse?

Je nach Methode gibt es oft unterschiedliche Anforderungen, z. B. benötigt die k-Means-Methode und alle Erweiterungen dieser Methode die Anzahl der Cluster als Parameter. Es gibt aber auch Anforderungen, die generell erfüllt sein müssen.

Ein Cluster sollte in sich möglichst homogen sein und sich klar von anderen Clustern unterscheiden. Eine eindeutige Abgrenzung muss gewährleistet sein. Folgende Bedingungen sollten daher erfüllt sein:

Größe des Datensatzes: Ein aussagekräftiges Ergebnis kann unter Umständen nur mit einem hinreichend großen Datensatz erzielt werden. Je nach Aufgabenstellung ist also abzuwägen, ob die Datenmenge ausreichend ist.
Normierung der Daten: liegen große Unterschiede im Wertebereich der Daten vor, sollte eine vorherige Normierung der Daten erfolgen
Ausreißerelimination: Ausreißer können die Ergebnisse stark verfälschen. Die Daten sollten also zunächst auf mögliche Extremwerte analysiert und bewertet werden und Ausreißer anschließend eliminiert werden.
Verzerrung: Bestehen starke Korrelationen zwischen den Daten, könnten die Ergebnisse am Ende stark verzerrt werden. Dies gilt es zu vermeiden.

Welche Anwednungsbeispiele gibt es für die Clusteranalyse?

Clusteranalysen sind mittlerweile in den verschiedensten Bereichen ein gängiges Mittel zur Gruppierung von Daten. Einerseits sind sie sehr einfach in der Anwendung, andererseits reduziert die zunehmende Automatisierung den Aufwand für die Durchführung der Verfahren.

Kundensegmentierung mit KI

Jetzt mehr erfahren

Dies macht den Zugang aus den unterschiedlichsten Bereichen einfacher. Clusteranalysen finden unter anderem Anwendung in den folgenden Bereichen:

Marketing: Kunden zu analysieren und in die richtigen Zielgruppen einzusortieren, kann im Marketing ein enormer Wettbewerbsvorteil sein. Hier werden Clusteranalysen verwendet, um ähnliche Kunden aus dem gesamten Kundenstamm zu identifizieren und individuelle Werbestrategien für diese Kunden zu entwickeln. Ein Beispiel zur Kundenanalyse findest du hier.
Medizin, Psychologie: Auch Verhaltensweisen oder Krankheitsbilder können in Cluster zusammengefasst werden. Auf dieser Grundlage lassen sich dann passende Therapien entwickeln.
Erdsystemforschung: Clusteranalysen sind zudem auch wichtige Mittel in der Erdsystemforschung. Statt eindimensionaler, strukturierter Daten lassen sich auch Bilder hinsichtlich auffälliger Cluster analysieren. Satellitenbilder lassen sich so häufig auf diese Weise auswerten, um so genannte Landbedeckungsklassen zu bestimmen und über die Zeit deren Veränderung.

Inhalt

Was ist eine Clusteranalyse?
Wie wird eine Clusteranalyse durchgeführt?
Welche Voraussetzungen gibt es bei der Clusteranalyse?
Welche Anwednungsbeispiele gibt es für die Clusteranalyse?

Lesen Sie auch

Weiterlesen

Was ist Unsupervised Learning (Unüberwachtes Lernen)?

Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen das maschinelle Lernverfahren in nicht kategorisierten Daten nach bisher unbekannten Mustern und Zusammenhängen sucht. Dieser Prozess funktioniert mit minimaler menschlicher Intervention. […]

Künstliche Intelligenz einfach erklärt! Definition, Arten und wo KI eingesetzt wird

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik und ermöglicht Maschinen autonom Probleme zu lösen und Entscheidungen zu treffen. Schon heute wird KI in vielen Anwendungen eingesetzt, um Prozesse zu […]

Was ist ein Algorithmus?

Woher weiß eine Software, wer die Liebe meines Lebens ist? Das versprechen zumindest die großen Dating-Portale – dabei hat das Programm keine Ahnung von Partnerschaft, geschweige denn von Liebe. Aber […]

Amazon Personalize: Funktionen, Anwendung und Vorteile

Der von Amazon Web Services (AWS) angebotene Service namens Amazon Personalize bietet Nutzern die Möglichkeit, die gleiche Machine Learning-Technologie zur Personalisierung zu verwenden, welche Amazon selbst nutzt. Dazu werden vom Nutzer keinerlei Erfahrungen […]

Was ist ein Machine Learning Engineer?

Ein Machine Learning Engineer ist ein wichtiger Bestandteil eines Data Science Teams. Er kümmert sich darum, dass Machine Learning Modelle in Produktion eingesetzt und das alle nötigen Prozesse dafür ineinander […]

AWS Transcribe

AWS Transcribe ist ein von Amazon angebotener Service, der zur Transkription von Audiodateien und gesprochener Sprache in Textform genutzt wird. Auf Basis von Deep-Learning-Prozessen agiert der Dienst automatisiert und hilft bei der […]

Was ist Amazon SageMaker?

Amazon SageMaker ist eine Everything-as-a-service-Cloud-Maschinenlernplattform von Amazon Web Services. Amazon SageMaker wird vor allem von Datenwissenschaftler und Entwicklern genutzt, um Modelle auf Basis von Machine Learning, in der Cloud zu erstellen, trainieren und einzusetzen. Das […]

Was ist Supervised Learning (Überwachtes Lernen)?

Supervised Learning ist eine Methode des maschinellen Lernens, welche aufgrund einer Analyse von Eingangsdaten mit vorgegebener Zielvariable präzise Empfehlungen ausgibt und Prognosen macht. Dieser Prozess ist durch die notwendige Datenvorverarbeitung […]

Text Mining: Definition, Methoden und Anwendung

Eine der herausfordernden Aufgaben in der Informatik besteht heute im Umgang mit großen Textmengen und der Extraktion von relevanten Daten aus Dokumenten mit unterschiedlicher und uneinheitlicher Formatierung. Das Text Mining […]

Erstgespräch vereinbaren