Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen das maschinelle Lernverfahren in nicht kategorisierten Daten nach bisher unbekannten Mustern und Zusammenhängen sucht. Dieser Prozess funktioniert mit minimaler menschlicher Intervention.
Im Folgenden gehe ich auf die Definition, Arten und Beispiele von unsupervised Learning ein und zeige die Unterschiede zu supervised Learning auf.
Steigen wir direkt ein!
Alles auf einem Blick: Unsupervised Lerning
- Lernt selbstständig Muster und Beziehungen aus Daten
- Wird für Clustering und Segmentierung verwendet
- Kann nicht für Prognosen verwendet werden
- Kann in Echtzeit verwendet werden
- Anzahl der Kategorien ist vorab nicht bekannt
- Minimaler menschlicher Aufwand bei der Vorbereitung
Was ist Unsupervised Learning?
Unsupervised Learning (deutsch: unüberwachtes Lernen) bezeichnet ein Verfahren des maschinellen Lernens, bei dem der Algorithmus lernt, selbstständig und ohne Aufsicht Muster und Zusammenhänge in Daten explorativ zu erkennen. Die Eingabedaten sind hier nicht beschriftet (gelabelt) und haben keine vorgegebene Zielvariable, d.h. die gewünschten Ausgabedaten sind nicht vorgegeben.
Unsupervised Learning ist abstrakt gesehen vergleichbar mit einem komplexen Legobaukasten, bei dem man die Bauanleitung verloren hat. Nun hat man einen riesigen Haufen von Bausteinen und muss selbst herausfinden, in welcher Beziehung die Steine zueinander stehen und welches Ergebnis dabei herauskommen könnte. Je nachdem, welche Steine man zur Verfügung hat und welche Formen man wählt, kann man ganz unterschiedliche Strukturen erhalten.
Warum setzt man Unsupervised Learning ein?
Die Hauptsächlichen Gründe für die Nutzung von unüberwachtem Lernen:
- Unsupervised Learning findet unbekannte Muster jeder Art in Daten
- Unüberwachtes Lernen hilft dabei, neue Kriterien (engl: Features) für Kategorisierungen zu finden
- Unsupervised Learning passiert in Echtzeit, aktuelle Daten können verwendet werden
- Unbeschriftete Daten sind einfacher zu akquirieren als beschriftete, welche manuell erarbeitet werden müssen
Ein Beispiel: Angenommen, ein Webshop-Betreiber möchte mehr über das Kaufverhalten seiner Kunden erfahren, so hat er zwei Möglichkeiten. Er kann seine Waren mit unüberwachtem Lernen nach verschiedenen Merkmalen gruppieren lassen und so z.B. herausfinden, welche Merkmale zu Kaufentscheidungen führen. Nutzt er überwachtes Lernen, gruppiert er seine Waren selbst in feste Segmente, die als Grundlage für die Analyse dienen.
Arten von Unsupervised Learning
Es gibt unterschiedliche Arten von unüberwachte Lernenverfahren:
Clustering
Wenn es um unüberwachtes Lernen geht, ist Clustering ein wichtiges Konzept. Beim Clustering geht es darum, Strukturen und Muster in unklassifizierten Daten zu finden, auf deren Grundlage natürliche Gruppierungen oder Cluster gebildet werden.
Folgende Clustering-Algorithmen gibt es:
- DB-Scan
- K-Means
- Hierarchische Clusteranalyse
Assoziationen
Die Assoziationsanalyse befasst sich mit der Suche nach starken Regeln in dem Datensatz, welche Korrelationen zwischen Datenpunkten beschreiben. Warenkorbanalysen basieren meist auf Assoziationsanalysen.
Folgende Algorithmen werden für Assoziationsanalysen verwendet:
- Apriori-Algorithmus
- FP Growth-Algorithmus
- Eclat-Algorithmus
Dimensionsreduktion
Bei der Dimensionsreduktion geht es darum, die Auswahl der in den Daten vorhandenen Variablen auf die wesentlichen und zielführenden Variablen zu beschränken. Mit dieser Methode wird verhindert, dass der Algorithmus nur die spezifischen Muster des Trainingsdatensatzes lernt (Overfitted) und später keine sinnvollen Aussagen über fremde Datensätze machen kann.
Hier werden folgende Verfahren verwendet:
- Principal Components Analysis (PCA)
- K-nearest-neighbor (k-NN)
- Nicht negative Matrixfaktorisierung (NMF)
Beispiele für den Einsatz von unüberwachtem Lernen
Unüberwachtes Lernen wird in folgenden Bereichen und Geschäftsprozessen verwendet:
Personalisierung im Marketing mit Kundensegmenten
Kundendaten sind in der Regel sehr vielfältig und beinhalten sehr viele nützliche Informationen, die man mit klassischen Methoden aus dem Marketing nicht herausfinden könnte.
Moderne Methoden nutzen unüberwachtes Lernen, um Kunden anhand dieser Daten in Segmente zu unterteilen. Kundengruppen sind sinnvoll für die Planung von Marketingkampagnen und –aufwendungen. Next Best Offer ist ein gutes Beispiel, hier werden Ähnlichkeiten in der Nutzung und Demografie der Kunden gefunden, um dem Kunden das nächste, beste Produkt vorzuschlagen. Amazons Webshop und Netflix modulare Startseite nutzen ebenfalls unter Anderem diese Methode.
Anomalie-Erkennung und Fraud Detection – Überwachung
Unternehmen, die täglich tausende oder mehr Kundendaten in ihrem Datenstrom verarbeiten müssen, stehen vor der großen Herausforderung, Anomalien oder betrügerische Nutzungsversuche zu erkennen. Unsupervised Learning wird hier eingesetzt, um Abweichungen von der Norm in Echtzeit zu erkennen und direkt eingreifen zu können. Auch komplexe automatisierte Prozesse können so kontinuierlich überwacht werden.
Warenkorbanalysen im Vertrieb und Handel – Assoziationen
In der Kaufhistorie der Kunden können mit Unüberwachtes Lernen Muster in den Warenkörben der Kunden gefunden werden. Es werden Assoziationsregeln aufgestellt, die das Kaufverhalten des gesamten Kunden erklären, nach dem Motto: “Wer ein Fahrrad gekauft hat, kauft meistens auch eine Reifenpumpe”. Nach diesem Prinzip werden Strategien und Produktplatzierungen optimiert, um den Umsatz signifikant zu steigern.
Unsupervised Learning vs. Supervised Learning: Was ist der Unterschied?
Die hauptsächlichen Unterschiede in einer Tabelle zusammengefasst:
Supervised learning | Unsupervised learning | |
Prozess | Input- und Outputdaten sind vorgegeben | Nur Inputdaten sind gegeben |
Inputdaten | Beispieldaten mit Zielvaribale | Beispieldaten ohne Zielvaribale |
Echtzeiteinsatz | Das Lernen passiert vor dem Deployment | Kann in Echtzeit genutzt werden |
Anzahl der Features | Anzahl ist bekannt | Anzahl ist unbekannt |
Einsatzgebiete | Vorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch. | Generierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk. |
Bildlich lässt sich der Unterschied viel besser veranschaulichen:
Bei Supervised Learning wissen wir im Voraus, dass es zwei Segmente gibt, unsupervised Learning erkennt Muster und Zusammenhänge in den Datensätzen und findet die Kundengruppen selbst heraus.
Wer mehr zu Supervised Learning erfahren will, hier ist ein ausführlicher Wiki-Beitrag zu dem Thema.
Zusammenfassung und Potenzial von unüberwachtem Lernen
Unüberwachtes Learning ist eine Methode, um unbekannte Muster und Beziehungen in nicht kategorisierten Daten zu finden. Unsupervised Learning wird vor allem bei der Erstellung von Assoziationsregeln (wer Produkt x kauft, wird wahrscheinlich auch Produkt y kaufen), der Segmentierung von z.B. Kundengruppen und der Reduktion von Dimensionen in einem Datensatz eingesetzt.
Unüberwachtes Lernen zeichnet sich vor allem durch die Fähigkeit aus, Muster und Zusammenhänge aus ungelabelten Daten zu erkennen. Aus diesem Grund wird es bereits heute bei der Konzeption und Planung einer Vielzahl von Marketingkampagnen und auch bei der Überprüfung von Datenströmen zur Betrugserkennung eingesetzt.
In Zukunft werden sowohl die Menge als auch die Form der zu verarbeitenden Daten weiter zunehmen und herkömmliche Methoden der Datenanalyse und Merkmalsextraktion nicht mehr mithalten können. Unüberwachtes Learning bietet die Möglichkeit, dieses Problem zu lösen.
Lassen Sie uns sprechen und Ihr Potenzial entdecken.
Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.
In diesem Gespräch erfahren Sie:
- Wie Ihr Use-Case technisch am besten umgesetzt werden kann
- Wie wir maximal sicher mit Ihren Kundendaten umgehen
- Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte