Was ist Unsupervised Learning (Unüberwachtes Lernen)?

Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen die maschinelle Lernmethode nach vorher unbekannten Mustern und Zusammenhängen in nicht kategorisierten Daten sucht. Dieser Prozess funktioniert mit minimalem menschlichem Aufwand. 

Im Folgenden gehe ich auf die Definition, Arten und Beispiele von unsupervised Learning ein und zeige die Unterschiede zu supervised Learning auf. 

Steigen wir direkt ein: 

  1. Alles auf einem Blick zu Unsupervised Learning 
  2. Was ist Unsupervised Learning?
  3. Warum setzt man Unsupervised Learning ein?
  4. Arten von unsupervised Learning 
  5. Beispiele für den Einsatz von unüberwachtem Lernen 
  6. Unsupervised Learning vs. Supervised Learning 
  7. Zusammenfassung und Potential von unüberwachtem Lernen 
In diesem Video erkläre ich an einem einfachen Beispiel was Unüberwachtes Lernen im Machine Learning bedeutet!

Alles auf einem Blick: Unsupervised Lerning

  • Lernt selbstständig Muster und Zusammenhänge aus Daten 
  • Wird für Clustering und Segmentierungen eingesetzt 
  • Lässt sich nicht für die Prognose einsetzen 
  • Kann in Echtzeit eingesetzt werden 
  • Anzahl der Kategorien ist im Vorfeld nicht bekannt 
  • Minimaler menschlicher Aufwand bei der Vorbereitung 

Was ist Unsupervised Learning? 

Unsupervised Learning (deutsch: unüberwachtes Lernen) bezeichnet eine Methode des maschinellen Lernens, bei der der Algorithmus lernt, selbständig und ohne Überwachung Muster und Zusammenhänge in Daten explorativ zu erkennen. Die Eingangsdaten sind hier nicht beschriftet (gelabelt) und haben keine vorgegebene Zielvariable, das heißt die gewünschten Ausgabedaten sind nicht vorgegeben.

Unsupervised Learning (unüberwachtes Lernen) ist eine Art von Maschinellem Lernen, die  eigenständig Muster und Zusammenhänge in den Daten findet.
Unsupervised Learning (unüberwachtes Lernen) ist eine Art von Maschinellem Lernen, die eigenständig Muster und Zusammenhänge in den Daten findet.

Abstrakt ausgedrückt ist Unsupervised Learning vergleichbar mit einem komplexen Lego-Set, bei dem man die Anleitung verloren hat. Jetzt hat man einen riesigen Haufen an Bausteinen und muss von selbst herausfinden, in welchem Zusammenhang die Steine zueinanderstehen und was für ein Ergebnis herauskommen könnte. Je nach verfügbaren Steinen und gewählten Formen können dabei völlig unterschiedliche Strukturen herauskommen. 

Warum setzt man Unsupervised Learning ein?

Die Hauptsächlichen Gründe für die Nutzung von unüberwachtem Lernen: 

  • Unsupervised Learning findet unbekannte Muster jeder Art in Daten 
  • Unüberwachtes Lernen hilft dabei, neue Kriterien (engl: Features) für Kategorisierungen zu finden 
  • Unsupervised Learning passiert in Echtzeit, aktuelle Daten können verwendet werden 
  • Unbeschriftete Daten sind einfacher zu akquirieren als beschriftete, welche manuell erarbeitet werden müssen 

Ein Beispiel: Nehmen wir an, ein Webshopbetreiber möchte mehr über das Kaufverhalten seiner Kunden erfahren, so hat er zwei Möglichkeiten. Er kann seine Ware mit unüberwachtem Lernen anhand verschiedener Eigenschaften gruppieren lassen und so zum Beispiel herausfinden, welche Merkmale zu Kaufentscheidungen führen. Nutzt er überwachtes Lernen, gruppiert er selbst seine Ware in feste Segmente, die als Grundlage für die Analyse dienen. 

Unsupervised Learning (deutsch: unüberwachtes Lernen): unterteilt einen Datensatz selbstständig in unterschiedliche Cluster.
Unsupervised Learning (deutsch: unüberwachtes Lernen): unterteilt einen Datensatz selbstständig in unterschiedliche Cluster.

Arten von Unsupervised Learning

Es gibt unterschiedliche Arten von unüberwachte Lernenverfahren:

Clustering 

Wenn es um unüberwachtes Lernen geht, ist Clustering ist ein wichtiges Konzept. Das Clustering beschäftigt sich mit dem Finden von Strukturen und Mustern in nicht kategorisierten Daten, auf deren Basis natürliche Gruppierungen oder Cluster gebildet werden. 

Folgende Clustering-Algorithmen gibt es: 

  • DB-Scan 
  • K-Means 
  • Hierarchische Clusteranalyse 

Assoziationen 

Die Assoziationsanalyse befasst sich mit der Suche nach starken Regeln in dem Datensatz, welche Korrelationen zwischen Datenpunkten beschreiben. Warenkorbanalysen basieren meist auf Assoziationsanalysen. 

Folgende Algorithmen werden für Assoziationsanalysen verwendet: 

  • Apriori-Algorithmus 
  • FP Growth-Algorithmus 
  • Eclat-Algorithmus 

Dimensionsreduktion 

Bei der Dimensionsreduktion geht es darum, die Auswahl der in den Daten vorhandenen Variablen auf die wesentlichen und zielführenden Variablen zu beschränken. Mit dieser Methode verhindert man, dass der Algorithmus nur die spezifischen Muster des Trainingsdatensatzes lernt (Overfitted) und im Nachgang keine treffenden Aussagen zu fremden Datensätzen treffen kann. 

Hier werden folgende Verfahren verwendet: 

  • Principal Components Analysis (PCA) 
  • K-nearest-neighbor (k-NN) 
  • Nicht negative Matrixfaktorisierung (NMF) 

Beispiele für den Einsatz von unüberwachtem Lernen 

Unüberwachtes Lernen wird in folgenden Bereichen und Geschäftsprozessen verwendet: 

Personalisierung im Marketing mit Kundensegmenten 

Kundendaten sind in der Regel sehr vielfältig und beinhalten sehr viele nützliche Informationen, die man mit klassischen Methoden aus dem Marketing nicht herausfinden könnte. 

In diesem Beispiel zu Unsupervised Learning zeigen wir, wie man eine Kundensegmentierung in Python erstellt.

Moderne Methoden nutzen unüberwachtes Lernen, um Kunden anhand dieser Daten in Segmente zu unterteilen. Kundengruppen sind sinnvoll für die Planung von Marketingkampagnen und –aufwendungen. Next Best Offer ist ein gutes Beispiel, hier werden Ähnlichkeiten in der Nutzung und Demografie der Kunden gefunden, um dem Kunden das nächste, beste Produkt vorzuschlagen. Amazons Webshop und Netflix modulare Startseite nutzen ebenfalls unter Anderem diese Methode. 

Anomalie-Erkennung und Fraud Detection – Überwachung 

Unternehmen, die täglich Tausende oder mehr Kundendaten täglich in Ihrem Datenstrom verarbeiten müssen, stehen vor der großen Schwierigkeit, Anomalien oder betrügerische Nutzungsversuche erkennen zu müssen. Unsupervised Learning wird an dieser Stelle eingesetzt, um Abweichungen von der Norm in Echtzeit zu erkennen und direkt eingreifen zu können. Selbst komplexe, automatisierte Prozesse können so durchgehend überwacht werden. 

Warenkorbanalysen im Vertrieb und Handel – Assoziationen 

In der Kaufhistorie der Kunden kann man mit Unsupervised Learning Muster in den Warenkörben der Kunden finden. Es werden Assoziationsregeln aufgestellt, welche das Kaufverhalten der gesamten Kunden erklärt wird, nach dem Motto: “Wer ein Fahrrad gekauft hat, kauft sich auch meistens eine Reifenpumpe.” Nach diesem Prinzip werden Strategien und Produktplatzierungen optimiert, um den Umsatz deutlich zu steigern.  

Unsupervised Learning vs. Supervised Learning: Was ist der Unterschied?

Die hauptsächlichen Unterschiede in einer Tabelle zusammengefasst: 

 Supervised learning  Unsupervised learning  
Prozess Input- und Outputdaten sind vorgegeben Nur Inputdaten sind gegeben 
Inputdaten  Beispieldaten mit ZielvaribaleBeispieldaten ohne Zielvaribale
Echtzeiteinsatz Das Lernen passiert vor dem Deployment Kann in Echtzeit genutzt werden 
Anzahl der Features Anzahl ist bekannt Anzahl ist unbekannt 
EinsatzgebieteVorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch.Generierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk.
Die Hauptunterschiede in einer Tabelle zusammengefasst

Bildlich lässt sich der Unterschied viel besser veranschaulichen: 

Supervised Learning vs. Unsupervised Learning
Supervised Learning vs. Unsupervised Learning

Bei Supervised Learning wissen wir im Voraus, dass es zwei Segmente gibt, unsupervised Learning erkennt Muster und Zusammenhänge in den Datensätzen und findet die Kundengruppen selbst heraus. 

Wer mehr zu Supervised Learning erfahren will, hier ist ein ausführlicher Wiki-Beitrag zu dem Thema.

Zusammenfassung und Potenzial von unüberwachtem Lernen 

Unsupervised Learning ist eine Methode, mit der unbekannte Muster und Zusammenhänge in nicht kategorisierten Daten gefunden werden. Verwendet wird unüberwachtes Lernen vornehmlich bei der Erstellung von Assoziationsregeln (Wer Produkt x kauft, wird wahrscheinlich Produkt y kaufen), Segmentierungen von z.B. Kundengruppen und der Reduktion von Dimensionen in einem Datensatz. 

Unüberwachtes Lernen zeichnet sich vor allem durch die Fähigkeit aus, aus nicht gelabelten Daten Muster und Zusammenhänge erkennen zu können. Aus diesem Grund wird es schon heute für die Konzeption und Planung von einer Vielzahl von Marketingkampagnen und auch bei der Überprüfung von Datenströmen für Fraud Detection eingesetzt. 

In Zukunft werden der Umfang und auch die Form der zu verarbeitenden Daten immer weiter ansteigen und herkömmliche Methoden der Analyse von Daten und Feature Extraction werden nicht mithalten können. Unsupervised Learning bietet die Möglichkeit, diesem Problem als Lösung entgegenstehen zu können. 

Ähnliche Einträge

Ihr Ansprechpartner: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln künstliche Intelligenz, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.