Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen die maschinelle Lernmethode nach vorher unbekannten Mustern und Zusammenhängen in nicht kategorisierten Daten sucht. Dieser Prozess funktioniert mit minimalem menschlichem Aufwand.
Im Folgenden gehe ich auf die Definition, Arten und Beispiele von unsupervised Learning ein und zeige die Unterschiede zu supervised Learning auf.
Steigen wir direkt ein:
- Alles auf einem Blick zu Unsupervised Learning
- Was ist Unsupervised Learning?
- Warum setzt man Unsupervised Learning ein?
- Arten von unsupervised Learning
- Beispiele für den Einsatz von unüberwachtem Lernen
- Unsupervised Learning vs. Supervised Learning
- Zusammenfassung und Potential von unüberwachtem Lernen
Alles auf einem Blick: Unsupervised Lerning
- Lernt selbstständig Muster und Zusammenhänge aus Daten
- Wird für Clustering und Segmentierungen eingesetzt
- Lässt sich nicht für die Prognose einsetzen
- Kann in Echtzeit eingesetzt werden
- Anzahl der Kategorien ist im Vorfeld nicht bekannt
- Minimaler menschlicher Aufwand bei der Vorbereitung
Was ist Unsupervised Learning?
Unsupervised Learning (deutsch: unüberwachtes Lernen) bezeichnet eine Methode des maschinellen Lernens, bei der der Algorithmus lernt, selbständig und ohne Überwachung Muster und Zusammenhänge in Daten explorativ zu erkennen. Die Eingangsdaten sind hier nicht beschriftet (gelabelt) und haben keine vorgegebene Zielvariable, das heißt die gewünschten Ausgabedaten sind nicht vorgegeben.
Abstrakt ausgedrückt ist Unsupervised Learning vergleichbar mit einem komplexen Lego-Set, bei dem man die Anleitung verloren hat. Jetzt hat man einen riesigen Haufen an Bausteinen und muss von selbst herausfinden, in welchem Zusammenhang die Steine zueinanderstehen und was für ein Ergebnis herauskommen könnte. Je nach verfügbaren Steinen und gewählten Formen können dabei völlig unterschiedliche Strukturen herauskommen.
Warum setzt man Unsupervised Learning ein?
Die Hauptsächlichen Gründe für die Nutzung von unüberwachtem Lernen:
- Unsupervised Learning findet unbekannte Muster jeder Art in Daten
- Unüberwachtes Lernen hilft dabei, neue Kriterien (engl: Features) für Kategorisierungen zu finden
- Unsupervised Learning passiert in Echtzeit, aktuelle Daten können verwendet werden
- Unbeschriftete Daten sind einfacher zu akquirieren als beschriftete, welche manuell erarbeitet werden müssen
Ein Beispiel: Nehmen wir an, ein Webshopbetreiber möchte mehr über das Kaufverhalten seiner Kunden erfahren, so hat er zwei Möglichkeiten. Er kann seine Ware mit unüberwachtem Lernen anhand verschiedener Eigenschaften gruppieren lassen und so zum Beispiel herausfinden, welche Merkmale zu Kaufentscheidungen führen. Nutzt er überwachtes Lernen, gruppiert er selbst seine Ware in feste Segmente, die als Grundlage für die Analyse dienen.
Arten von Unsupervised Learning
Es gibt unterschiedliche Arten von unüberwachte Lernenverfahren:
Clustering
Wenn es um unüberwachtes Lernen geht, ist Clustering ist ein wichtiges Konzept. Das Clustering beschäftigt sich mit dem Finden von Strukturen und Mustern in nicht kategorisierten Daten, auf deren Basis natürliche Gruppierungen oder Cluster gebildet werden.
Folgende Clustering-Algorithmen gibt es:
- DB-Scan
- K-Means
- Hierarchische Clusteranalyse
Assoziationen
Die Assoziationsanalyse befasst sich mit der Suche nach starken Regeln in dem Datensatz, welche Korrelationen zwischen Datenpunkten beschreiben. Warenkorbanalysen basieren meist auf Assoziationsanalysen.
Folgende Algorithmen werden für Assoziationsanalysen verwendet:
- Apriori-Algorithmus
- FP Growth-Algorithmus
- Eclat-Algorithmus
Dimensionsreduktion
Bei der Dimensionsreduktion geht es darum, die Auswahl der in den Daten vorhandenen Variablen auf die wesentlichen und zielführenden Variablen zu beschränken. Mit dieser Methode verhindert man, dass der Algorithmus nur die spezifischen Muster des Trainingsdatensatzes lernt (Overfitted) und im Nachgang keine treffenden Aussagen zu fremden Datensätzen treffen kann.
Hier werden folgende Verfahren verwendet:
- Principal Components Analysis (PCA)
- K-nearest-neighbor (k-NN)
- Nicht negative Matrixfaktorisierung (NMF)
Beispiele für den Einsatz von unüberwachtem Lernen
Unüberwachtes Lernen wird in folgenden Bereichen und Geschäftsprozessen verwendet:
Personalisierung im Marketing mit Kundensegmenten
Kundendaten sind in der Regel sehr vielfältig und beinhalten sehr viele nützliche Informationen, die man mit klassischen Methoden aus dem Marketing nicht herausfinden könnte.
Moderne Methoden nutzen unüberwachtes Lernen, um Kunden anhand dieser Daten in Segmente zu unterteilen. Kundengruppen sind sinnvoll für die Planung von Marketingkampagnen und –aufwendungen. Next Best Offer ist ein gutes Beispiel, hier werden Ähnlichkeiten in der Nutzung und Demografie der Kunden gefunden, um dem Kunden das nächste, beste Produkt vorzuschlagen. Amazons Webshop und Netflix modulare Startseite nutzen ebenfalls unter Anderem diese Methode.
Anomalie-Erkennung und Fraud Detection – Überwachung
Unternehmen, die täglich Tausende oder mehr Kundendaten täglich in Ihrem Datenstrom verarbeiten müssen, stehen vor der großen Schwierigkeit, Anomalien oder betrügerische Nutzungsversuche erkennen zu müssen. Unsupervised Learning wird an dieser Stelle eingesetzt, um Abweichungen von der Norm in Echtzeit zu erkennen und direkt eingreifen zu können. Selbst komplexe, automatisierte Prozesse können so durchgehend überwacht werden.
Warenkorbanalysen im Vertrieb und Handel – Assoziationen
In der Kaufhistorie der Kunden kann man mit Unsupervised Learning Muster in den Warenkörben der Kunden finden. Es werden Assoziationsregeln aufgestellt, welche das Kaufverhalten der gesamten Kunden erklärt wird, nach dem Motto: “Wer ein Fahrrad gekauft hat, kauft sich auch meistens eine Reifenpumpe.” Nach diesem Prinzip werden Strategien und Produktplatzierungen optimiert, um den Umsatz deutlich zu steigern.
Unsupervised Learning vs. Supervised Learning: Was ist der Unterschied?
Die hauptsächlichen Unterschiede in einer Tabelle zusammengefasst:
Supervised learning | Unsupervised learning | |
Prozess | Input- und Outputdaten sind vorgegeben | Nur Inputdaten sind gegeben |
Inputdaten | Beispieldaten mit Zielvaribale | Beispieldaten ohne Zielvaribale |
Echtzeiteinsatz | Das Lernen passiert vor dem Deployment | Kann in Echtzeit genutzt werden |
Anzahl der Features | Anzahl ist bekannt | Anzahl ist unbekannt |
Einsatzgebiete | Vorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch. | Generierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk. |
Bildlich lässt sich der Unterschied viel besser veranschaulichen:
Bei Supervised Learning wissen wir im Voraus, dass es zwei Segmente gibt, unsupervised Learning erkennt Muster und Zusammenhänge in den Datensätzen und findet die Kundengruppen selbst heraus.
Wer mehr zu Supervised Learning erfahren will, hier ist ein ausführlicher Wiki-Beitrag zu dem Thema.
Zusammenfassung und Potenzial von unüberwachtem Lernen
Unsupervised Learning ist eine Methode, mit der unbekannte Muster und Zusammenhänge in nicht kategorisierten Daten gefunden werden. Verwendet wird unüberwachtes Lernen vornehmlich bei der Erstellung von Assoziationsregeln (Wer Produkt x kauft, wird wahrscheinlich Produkt y kaufen), Segmentierungen von z.B. Kundengruppen und der Reduktion von Dimensionen in einem Datensatz.
Unüberwachtes Lernen zeichnet sich vor allem durch die Fähigkeit aus, aus nicht gelabelten Daten Muster und Zusammenhänge erkennen zu können. Aus diesem Grund wird es schon heute für die Konzeption und Planung von einer Vielzahl von Marketingkampagnen und auch bei der Überprüfung von Datenströmen für Fraud Detection eingesetzt.
In Zukunft werden der Umfang und auch die Form der zu verarbeitenden Daten immer weiter ansteigen und herkömmliche Methoden der Analyse von Daten und Feature Extraction werden nicht mithalten können. Unsupervised Learning bietet die Möglichkeit, diesem Problem als Lösung entgegenstehen zu können.