Unsupervised Learning: Definition, Arten & Beispiele

Was ist Unsupervised Learning (Unüberwachtes Lernen)?

6 Minuten Lesezeit

Machine Learning

Zusammenfassung

Unsupervised Learning beschreibt Machine Learning ohne gelabelte Daten, bei dem Algorithmen eigenständig Muster und Strukturen erkennen
Ziel ist es, verborgene Zusammenhänge in Daten zu finden, z. B. Gruppen, Beziehungen oder Anomalien
Zentrale Verfahren sind Clustering, Dimensionsreduktion und Anomalieerkennung
Unterschied zu Supervised Learning: Es gibt keine vorgegebenen Zielwerte oder „richtigen Antworten“
Typische Use Cases sind Kundensegmentierung, Mustererkennung und explorative Datenanalyse

Über den Autor

Unser CTO Laurenz ist Deutschlands einziger Databricks MVP. Als Databricks Champion und Experte für KI-Strategien realisiert er skalierbare Datenplattformen. Auf…

Mehr über Laurenz Wuttke

Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen das maschinelle Lernverfahren in nicht kategorisierten Daten nach bisher unbekannten Mustern und Zusammenhängen sucht. Dieser Prozess funktioniert mit minimaler menschlicher Intervention.

Im Folgenden gehe ich auf die Definition, Arten und Beispiele von unsupervised Learning ein und zeige die Unterschiede zu supervised Learning auf.

Steigen wir direkt ein!

In diesem Video erkläre ich an einem einfachen Beispiel was Unüberwachtes Lernen im Machine Learning bedeutet!

Alles auf einem Blick: Unsupervised Lerning

Lernt selbstständig Muster und Beziehungen aus Daten
Wird für Clustering und Segmentierung verwendet
Kann nicht für Prognosen verwendet werden
Kann in Echtzeit verwendet werden
Anzahl der Kategorien ist vorab nicht bekannt
Minimaler menschlicher Aufwand bei der Vorbereitung

Was ist Unsupervised Learning?

Unsupervised Learning (deutsch: unüberwachtes Lernen) bezeichnet ein Verfahren des maschinellen Lernens, bei dem der Algorithmus lernt, selbstständig und ohne Aufsicht Muster und Zusammenhänge in Daten explorativ zu erkennen. Die Eingabedaten sind hier nicht beschriftet (gelabelt) und haben keine vorgegebene Zielvariable, d.h. die gewünschten Ausgabedaten sind nicht vorgegeben.

Unsupervised Learning (unüberwachtes Lernen) ist eine Art von Maschinellem Lernen, die eigenständig Muster und Zusammenhänge in den Daten findet.

Unsupervised Learning ist abstrakt gesehen vergleichbar mit einem komplexen Legobaukasten, bei dem man die Bauanleitung verloren hat. Nun hat man einen riesigen Haufen von Bausteinen und muss selbst herausfinden, in welcher Beziehung die Steine zueinander stehen und welches Ergebnis dabei herauskommen könnte. Je nachdem, welche Steine man zur Verfügung hat und welche Formen man wählt, kann man ganz unterschiedliche Strukturen erhalten.

Warum setzt man Unsupervised Learning ein?

Die Hauptsächlichen Gründe für die Nutzung von unüberwachtem Lernen:

Unsupervised Learning findet unbekannte Muster jeder Art in Daten
Unüberwachtes Lernen hilft dabei, neue Kriterien (engl: Features) für Kategorisierungen zu finden
Unsupervised Learning passiert in Echtzeit, aktuelle Daten können verwendet werden
Unbeschriftete Daten sind einfacher zu akquirieren als beschriftete, welche manuell erarbeitet werden müssen

Ein Beispiel: Angenommen, ein Webshop-Betreiber möchte mehr über das Kaufverhalten seiner Kunden erfahren, so hat er zwei Möglichkeiten. Er kann seine Waren mit unüberwachtem Lernen nach verschiedenen Merkmalen gruppieren lassen und so z.B. herausfinden, welche Merkmale zu Kaufentscheidungen führen. Nutzt er überwachtes Lernen, gruppiert er seine Waren selbst in feste Segmente, die als Grundlage für die Analyse dienen.

Unsupervised Learning (deutsch: unüberwachtes Lernen): unterteilt einen Datensatz selbstständig in unterschiedliche Cluster.

Arten von Unsupervised Learning

Es gibt unterschiedliche Arten von unüberwachte Lernenverfahren:

Clustering

Wenn es um unüberwachtes Lernen geht, ist Clustering ein wichtiges Konzept. Beim Clustering geht es darum, Strukturen und Muster in unklassifizierten Daten zu finden, auf deren Grundlage natürliche Gruppierungen oder Cluster gebildet werden.

Folgende Clustering-Algorithmen gibt es:

DB-Scan
K-Means
Hierarchische Clusteranalyse

Assoziationen

Die Assoziationsanalyse befasst sich mit der Suche nach starken Regeln in dem Datensatz, welche Korrelationen zwischen Datenpunkten beschreiben. Warenkorbanalysen basieren meist auf Assoziationsanalysen.

Folgende Algorithmen werden für Assoziationsanalysen verwendet:

Apriori-Algorithmus
FP Growth-Algorithmus
Eclat-Algorithmus

Dimensionsreduktion

Bei der Dimensionsreduktion geht es darum, die Auswahl der in den Daten vorhandenen Variablen auf die wesentlichen und zielführenden Variablen zu beschränken. Mit dieser Methode wird verhindert, dass der Algorithmus nur die spezifischen Muster des Trainingsdatensatzes lernt (Overfitted) und später keine sinnvollen Aussagen über fremde Datensätze machen kann.

Hier werden folgende Verfahren verwendet:

Principal Components Analysis (PCA)
K-nearest-neighbor (k-NN)
Nicht negative Matrixfaktorisierung (NMF)

Beispiele für den Einsatz von unüberwachtem Lernen

Unüberwachtes Lernen wird in folgenden Bereichen und Geschäftsprozessen verwendet:

Personalisierung im Marketing mit Kundensegmenten

Kundendaten sind in der Regel sehr vielfältig und beinhalten sehr viele nützliche Informationen, die man mit klassischen Methoden aus dem Marketing nicht herausfinden könnte.

In diesem Beispiel zu Unsupervised Learning zeigen wir, wie man eine Kundensegmentierung in Python erstellt.

Moderne Methoden nutzen unüberwachtes Lernen, um Kunden anhand dieser Daten in Segmente zu unterteilen. Kundengruppen sind sinnvoll für die Planung von Marketingkampagnen und –aufwendungen. Next Best Offer ist ein gutes Beispiel, hier werden Ähnlichkeiten in der Nutzung und Demografie der Kunden gefunden, um dem Kunden das nächste, beste Produkt vorzuschlagen. Amazons Webshop und Netflix modulare Startseite nutzen ebenfalls unter Anderem diese Methode.

Anomalie-Erkennung und Fraud Detection – Überwachung

Unternehmen, die täglich tausende oder mehr Kundendaten in ihrem Datenstrom verarbeiten müssen, stehen vor der großen Herausforderung, Anomalien oder betrügerische Nutzungsversuche zu erkennen. Unsupervised Learning wird hier eingesetzt, um Abweichungen von der Norm in Echtzeit zu erkennen und direkt eingreifen zu können. Auch komplexe automatisierte Prozesse können so kontinuierlich überwacht werden.

Warenkorbanalysen im Vertrieb und Handel – Assoziationen

In der Kaufhistorie der Kunden können mit Unüberwachtes Lernen Muster in den Warenkörben der Kunden gefunden werden. Es werden Assoziationsregeln aufgestellt, die das Kaufverhalten des gesamten Kunden erklären, nach dem Motto: “Wer ein Fahrrad gekauft hat, kauft meistens auch eine Reifenpumpe”. Nach diesem Prinzip werden Strategien und Produktplatzierungen optimiert, um den Umsatz signifikant zu steigern.

Unsupervised Learning vs. Supervised Learning: Was ist der Unterschied?

Die hauptsächlichen Unterschiede in einer Tabelle zusammengefasst:

	Supervised learning	Unsupervised learning
Prozess	Input- und Outputdaten sind vorgegeben	Nur Inputdaten sind gegeben
Inputdaten	Beispieldaten mit Zielvaribale	Beispieldaten ohne Zielvaribale
Echtzeiteinsatz	Das Lernen passiert vor dem Deployment	Kann in Echtzeit genutzt werden
Anzahl der Features	Anzahl ist bekannt	Anzahl ist unbekannt
Einsatzgebiete	Vorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch.	Generierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk.

Die Hauptunterschiede in einer Tabelle zusammengefasst

Bildlich lässt sich der Unterschied viel besser veranschaulichen:

Supervised Learning vs. Unsupervised Learning

Bei Supervised Learning wissen wir im Voraus, dass es zwei Segmente gibt, unsupervised Learning erkennt Muster und Zusammenhänge in den Datensätzen und findet die Kundengruppen selbst heraus.

Wer mehr zu Supervised Learning erfahren will, hier ist ein ausführlicher Wiki-Beitrag zu dem Thema.

Zusammenfassung und Potenzial von unüberwachtem Lernen

Unüberwachtes Learning ist eine Methode, um unbekannte Muster und Beziehungen in nicht kategorisierten Daten zu finden. Unsupervised Learning wird vor allem bei der Erstellung von Assoziationsregeln (wer Produkt x kauft, wird wahrscheinlich auch Produkt y kaufen), der Segmentierung von z.B. Kundengruppen und der Reduktion von Dimensionen in einem Datensatz eingesetzt.

Unüberwachtes Lernen zeichnet sich vor allem durch die Fähigkeit aus, Muster und Zusammenhänge aus ungelabelten Daten zu erkennen. Aus diesem Grund wird es bereits heute bei der Konzeption und Planung einer Vielzahl von Marketingkampagnen und auch bei der Überprüfung von Datenströmen zur Betrugserkennung eingesetzt.

In Zukunft werden sowohl die Menge als auch die Form der zu verarbeitenden Daten weiter zunehmen und herkömmliche Methoden der Datenanalyse und Merkmalsextraktion nicht mehr mithalten können. Unüberwachtes Learning bietet die Möglichkeit, dieses Problem zu lösen.

Vinzent Wuttke

Geschäftsführer

Lassen Sie uns sprechen und Ihr Potenzial entdecken.

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

Wie Ihr Use-Case technisch am besten umgesetzt werden kann
Wie wir maximal sicher mit Ihren Kundendaten umgehen
Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte

Jetzt Erstgespräch vereinbaren

Was ist Unsupervised Learning (Unüberwachtes Lernen)?

Alles auf einem Blick: Unsupervised Lerning

Was ist Unsupervised Learning?

Warum setzt man Unsupervised Learning ein?

Arten von Unsupervised Learning

Clustering

Assoziationen

Dimensionsreduktion

Beispiele für den Einsatz von unüberwachtem Lernen

Personalisierung im Marketing mit Kundensegmenten

Anomalie-Erkennung und Fraud Detection – Überwachung

Warenkorbanalysen im Vertrieb und Handel – Assoziationen

Unsupervised Learning vs. Supervised Learning: Was ist der Unterschied?

Zusammenfassung und Potenzial von unüberwachtem Lernen

Lassen Sie uns sprechen und Ihr Potenzial entdecken.

Weiterlesen

Clusteranalyse einfach erklärt

Künstliche Intelligenz einfach erklärt! Definition, Arten und wo KI eingesetzt wird

Was ist ein Algorithmus?

Amazon Personalize: Funktionen, Anwendung und Vorteile

Was ist ein Machine Learning Engineer?

AWS Transcribe

Was ist Amazon SageMaker?

Was ist Supervised Learning (Überwachtes Lernen)?

Text Mining: Definition, Methoden und Anwendung