Was ist Supervised Learning (Überwachtes Lernen)?

Supervised Learning ist eine Methode des maschinellen Lernens, welche aufgrund einer Analyse von Eingangsdaten mit vorgegebener Zielvariable präzise Empfehlungen ausgibt und Prognosen macht. Dieser Prozess ist durch die notwendige Datenvorverarbeitung mit einem relativ hohen menschlichen Aufwand verbunden. 

In diesem Artikel gehe ich auf die Funktionsweise, Probleme, Arten und Beispiele von Supervised Learning ein. 

Steigen wir direkt ein:

  1. Alles auf einem Blick zu Supervised Learning
  2. Was ist Supervised Learning? 
  3. Welche Herausforderungen gibt es bei überwachtem Lernen?
  4. Arten von Supervised Learning 
  5. Beispiele für den Einsatz von Überwachtem Lernen 
  6. Supervised Learning vs. Unsupervised Learning 
  7. Zusammenfassung und Potential von Überwachtem Lernen 

Alles auf einem Blick zu Supervised Learning:

  • Überwchtes Lernen nutzt Beispieldaten mit einer Zielvariable, um aus diesen Daten Muster zu erlernen und diese auf unbekannte Daten anzuwenden 
  • Wird für Klassifikationen und Regressionen genutzt, also für die Vorhersage von Wahrscheinlichkeiten oder numerischen Werten
  • Überwachtes Lernen setzt eine aufwendige Datenvorverarbeitung voraus

Was ist Supervised Learning? 

Supervised Learning (deutsch: Überwachtes Lernen) ist ein Verfahren des maschinellen Lernens, wo dem Machine Learning Algorithmus ein Datensatz, bei dem die Zielvariable bereits bekannt ist, vorgelegt wird. Der Algorithmus erlernt Zusammenhänge und Abhängigkeiten in den Daten, die diese Zielvariablen erklären. Nach dem Training wird die Qualität der Vorhersage bewertet, um anschließend die erlernten Muster auf unbekannte Daten anzuwenden und Prognosen sowie Vorhersagen zu erstellen. 

Supervised Learning (Überwachtes Lernen) trainiert Muster und Zusammenhänge anhand von Daten mit einer Zielvariable.
Supervised Learning (Überwachtes Lernen) trainiert Muster und Zusammenhänge anhand von Daten mit einer Zielvariable.

Dieser Prozess ist iterativ und wird so oft durchgeführt, bis das gewünschte Ergebnis erreicht ist. Im Grunde basiert der Prozess auf dem Trial-and-Error Prinzip, bei dem die vorherigen Erfahrungen mit in den Lernprozess einbezogen werden. 

In diesem Video erkläre ich an einem einfachen Beispiel was Überwachtes Lernen ist!

Ein trainiertes Modell kann wird auf unbekannte Daten angewandt werden, um präzise Vorhersagen zu tätigen.  

Vergleichen kann man diese Vorgehensweise mit einer Schulung, bei der ein Tutor den Lernprozess überwacht.

Warum setzt man Supervised Learning ein? 

Die zentralen Gründe für die Nutzung von überwachtem Lernen sind: 

  • Lernerfahrung fließt in den Prozess mit ein 
  • Hervorragend für Vorhersagen 
  • Kann Empfehlungen generieren 
  • Der Lernprozess ist relativ simpel (Datenaufbereitung ist komplex)  

Ein Beispiel: Ein potenzieller Kunde einer Bank möchte einen Kredit aufnehmen. Die Bank kann an dieser Stelle überwachtes Lernen nutzen, um festzustellen, wie sich ähnliche Kunden verhalten haben. Mit dieser Datengrundlage kann die Bank nun eine Entscheidung zu Zinssätzen und Laufzeiten treffen und gegebenenfalls den Kredit verweigern, wenn ähnliche Kunden typischerweise negativ aufgefallen sind.

Supervised Learning (deutsch: überwachtes Lernen)
Supervised Learning (deutsch: überwachtes Lernen), da es Beispieldaten mit Klassen oder Werten gibt, anhand dieser der Algorithmus lernen kann.

Wenn du wissen willst, was Machine Learning ist und wie es grundsätzlich funktioniert, dann schau in das Video von uns:

Was ist Machine Learning?

Überwachtes Lernen Arten

Es gibt zwei hauptsächliche Problemstellungen, bei denen supervised learning eingesetzt wird: Klassifikation und Regression. 

Klassifikation 

Soll beispielsweise in einem Bild erkannt werden, ob es sich um einen Hund oder eine Katze handelt, ist das eine Klassifikationsaufgabe. Das Modell wird hier an einem Datensatz trainiert, bei dem das Ergebnis schon bekannt ist. Im Nachgang kann das erfolgreich trainierte Modell die Klassifikation auch bei unbekannten Daten durchführen. 

Zu den wichtigsten Algorithmen gehören: 

  • Logistische Regression
  • Support vector machines (SVM)
  • K-nearest neighbors-Verfahren
  • Naïve Bayes
  • Entscheidungsbaumverfahren (Decision Trees) und abgeleitete Methoden wie
    • Gradient Boosted Trees
    • Random Forest
  • Künstliche neuronale Netze

Wir haben dir ein Beispiel zu Supervised Learning Klassifikation aufgenommen:

Supervised Learning Beispiel Klassifikation an E-Commerce Daten.

Regression

Auch bei gezielten Vorhersagen oder der Erkennung von Trends wird supervised learning eingesetzt. Typische Regressionsaufgaben beinhalten kontinuierliche oder reale Eingangsdaten, wie Alter, Gehalt oder Preise. Diese Daten analysiert der Algorithmus und lernt anhand der vorgegebenen Zielvariable die Muster und Zusammenhänge der Datenpunkte. Aufgrund dieser Informationen kann das trainierte Modell nun auch präzise Vorhersagen und Empfehlungen aussprechen. 

Zu den meistgenutzten Algorithmen gehören: 

  • Lineare Regression 
  • Künstliche neuronale Netze
  • Entscheidungsbaumverfahren (Decision Trees) und abgeleitete Methoden wie
    • Gradient Boosted Trees
    • Random Forest
Supervised Learning Beispiel Regression an E-Commerce Daten.

Beispiele für den Einsatz von Supervised Learning

Für überwachtes Lernen gibt es viele Beispiele in Wirtschaft und Forschung:

Churn Predicition im Customer Relationship Management 

Möchte man im Customer Relationship Management die Wahrscheinlichkeit einer Abwanderung eines Kunden vorhersagen, nutzt man überwachtes Lernen. Dafür werden die Abwanderungen in der Vergangenheit betrachtet, genauer die Gründe für die Abwanderung. Das Modell findet in den Kundendaten Zusammenhänge, die zum Churn geführt haben und stellt Regeln hierfür auf.  

Das Ergebnis ist eine präzise Vorhersage zur Churn-Wahrscheinlichkeit jedes einzelnen Kunden. 

Spam Detection bei E-Mails 

Moderne E-Mail-Anbieter arbeiten unentwegt an ihren Spam-Filtern, um das Nutzungserlebnis der User zu verbessern. Hier werden überwachte Lernverfahren eingesetzt, um diese Mails zu klassifizieren und eine Aussage zu der Art zu tätigen (Spam | nicht Spam). Trainiert wird das Modell mit im Voraus klassifizierten Mails, bei denen die Antwort auf die Zielvariable schon stehen. Unbekannte Mails können nun auf die Muster von Spam-Mails geprüft und so klassifiziert werden. 

Empfehlungssysteme in Online-Diensten 

Empfehlungssysteme sprechen Produkt- oder Content Empfehlungen aus, die zum einen auf dem Nutzverhalten (User-Item-Ansatz) des Users und zum anderen auf einer Ähnlichkeitsberechnung zu anderen Usern (User-User-Ansatz) basieren. Streaming-Anbieter, wie Netflix nutzen die Interessen eines Users, zusammen mit den Interessen ähnlicher User als Basis für die Content Empfehlungen auf der Startseite. Dabei kommt eine personalisierte Seite für jeden einzelnen Nutzer heraus. 

Supervised Learning vs. Unsupervised Learning

Die Hauptsächlichen Unterschiede von Supervised und Unsupervised Learning auf einen Blick: 

 Unsupervised learning   Supervised learning   
Prozess  Nur Inputdaten sind gegeben  Input- und Outputdaten sind vorgegeben  
Inputdaten   Beispieldaten ohne Zielvaribale Beispieldaten mit Zielvaribale 
Echtzeiteinsatz  Kann in Echtzeit genutzt werden  Das Lernen passiert vor dem Deployment  
Anzahl der Features  Anzahl ist unbekannt  Anzahl ist bekannt  
Einsatzgebiete Generierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk. Vorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch. 
Unterschiede von Supervised Learning und Unsupervised Learning

Folgende Grafik veranschaulicht die Unterschiede:

Supervised Learning vs. Unsupervised Learning wo ist der Unterschied
Supervised Learning vs. Unsupervised Learning

Unsupervised Learning findet selbständig heraus, dass es zwei Segmente gibt, bei Unsupervised Learning werden die zwei Gruppen vorgegeben. 

Welche Herausforderungen gibt es bei überwachtem Lernen?

Das Training des Modells läuft nicht immer genau so, wie man es sich vorstellt: 

Overfitting

Bei dem Training vom Modell kann es vorkommen, dass zu viele Merkmale oder Variablen (Features) in die Analyse mit einfließen und das Modell sich so zu sehr an den Trainingsdatensatz anpasst. Dieses Phänomen wird “Overfitting” genannt. Ein gutes Beispiel ist die Klassifizierung von Objekten in einem Bild. Steht im Trainingsdatensatz eine Tasse immer auf einem Tisch mit einer Tischdecke, wird diese Tasse in einem unbekannten Datensatz nur in diesem Zusammenhang erkannt.  

Hier kann die Dimensionsreduktion mit unsupervised Learning helfen, den Menge an Features zu verringern. 

Underfitting 

Werden andererseits zu wenige Features genutzt, kann das Modell keine klaren Zusammenhänge und Muster erkennen, die auf die Zielvariable schließen lassen. In diesem Fall liegt ein “Underfitting” vor. Vergleichen kann man diese Situation mit einer Lernschwäche. In diesem Fall ist es ratsam, die gegebenen Variablen zu überprüfen und anzupassen. 

Wer mehr über Machine Learning und den Prozess wissen möchte, hier ist ein ausführlicher Artikel.

Zusammenfassung und Potential: Überwachtes Lernen

Supervised Learning ist eine Methode des maschinellen Lernens, bei der klassifizierte Eingangsdaten mit vorgegebener Zielvariable als Datengrundlage für Klassifikations- und Regressionsaufgaben genutzt wird. Das Modell mit dem gewählten Algorithmus sucht im Datensatz nach Mustern und Zusammenhängen, die auf die Zielvariable schließen lassen. Das Ergebnis ist eine präzise Vorhersage oder Empfehlung für den jeweiligen Use-Case, sei es eine Personalisierung oder eine Vorhersage zu Zahlungsausfällen. 

Schon heute ist überwachtes Lernen eine der meist genutzten Methoden des maschinellen Lernens, da die Möglichkeiten schier endlos sind. Von einer automatischen Bild-Indexierung für eine Datenbank bis hin zu Prognosen zu Regenwahrscheinlichkeiten ist sehr vieles möglich. Mit zunehmender Rechenleistung und wachsender Datenmengen werden die Berechnungen immer schneller und präziser. 

Ähnliche Einträge

Ihr Ansprechpartner: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln künstliche Intelligenz, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.