Supervised Learning ist eine Methode des maschinellen Lernens, welche aufgrund einer Analyse von Eingangsdaten mit vorgegebener Zielvariable präzise Empfehlungen ausgibt und Prognosen macht. Dieser Prozess ist durch die notwendige Datenvorverarbeitung mit einem relativ hohen menschlichen Aufwand verbunden.
In diesem Artikel gehe ich auf die Funktionsweise, Probleme, Arten und Beispiele von Supervised Learning ein.
Steigen wir direkt ein!
Alles auf einem Blick zu Supervised Learning:
- Überwchtes Lernen nutzt Beispieldaten mit einer Zielvariable, um aus diesen Daten Muster zu erlernen und diese auf unbekannte Daten anzuwenden
- Wird für Klassifikationen und Regressionen genutzt, also für die Vorhersage von Wahrscheinlichkeiten oder numerischen Werten
- Überwachtes Lernen setzt eine aufwendige Datenvorverarbeitung voraus
Was ist Supervised Learning?
Supervised Learning (deutsch: Überwachtes Lernen) ist ein Verfahren des maschinellen Lernens, wo dem Machine Learning Algorithmus ein Datensatz, bei dem die Zielvariable bereits bekannt ist, vorgelegt wird. Der Algorithmus erlernt Zusammenhänge und Abhängigkeiten in den Daten, die diese Zielvariablen erklären. Nach dem Training wird die Qualität der Vorhersage bewertet, um anschließend die erlernten Muster auf unbekannte Daten anzuwenden und Prognosen sowie Vorhersagen zu erstellen.
Dieser Prozess ist iterativ und wird so oft durchgeführt, bis das gewünschte Ergebnis erreicht ist. Im Grunde basiert der Prozess auf dem Trial-and-Error Prinzip, bei dem die vorherigen Erfahrungen mit in den Lernprozess einbezogen werden.
Ein trainiertes Modell kann wird auf unbekannte Daten angewandt werden, um präzise Vorhersagen zu tätigen.
Vergleichen kann man diese Vorgehensweise mit einer Schulung, bei der ein Tutor den Lernprozess überwacht.
Warum setzt man Supervised Learning ein?
Die zentralen Gründe für die Nutzung von überwachtem Lernen sind:
- Lernerfahrung fließt in den Prozess mit ein
- Hervorragend für Vorhersagen
- Kann Empfehlungen generieren
- Der Lernprozess ist relativ simpel (Datenaufbereitung ist komplex)
Ein Beispiel: Ein potenzieller Kunde einer Bank möchte einen Kredit aufnehmen. Die Bank kann an dieser Stelle überwachtes Lernen nutzen, um festzustellen, wie sich ähnliche Kunden verhalten haben. Mit dieser Datengrundlage kann die Bank nun eine Entscheidung zu Zinssätzen und Laufzeiten treffen und gegebenenfalls den Kredit verweigern, wenn ähnliche Kunden typischerweise negativ aufgefallen sind.
Wenn du wissen willst, was Machine Learning ist und wie es grundsätzlich funktioniert, dann schau in das Video von uns:
Überwachtes Lernen Arten
Es gibt zwei hauptsächliche Problemstellungen, bei denen supervised learning eingesetzt wird: Klassifikation und Regression.
Klassifikation
Soll beispielsweise in einem Bild erkannt werden, ob es sich um einen Hund oder eine Katze handelt, ist das eine Klassifikationsaufgabe. Das Modell wird hier an einem Datensatz trainiert, bei dem das Ergebnis schon bekannt ist. Im Nachgang kann das erfolgreich trainierte Modell die Klassifikation auch bei unbekannten Daten durchführen.
Zu den wichtigsten Algorithmen gehören:
- Logistische Regression
- Support vector machines (SVM)
- K-nearest neighbors-Verfahren
- Naïve Bayes
- Entscheidungsbaumverfahren (Decision Trees) und abgeleitete Methoden wie
- Gradient Boosted Trees
- Random Forest
- Künstliche neuronale Netze
Wir haben dir ein Beispiel zu Supervised Learning Klassifikation aufgenommen:
Regression
Auch bei gezielten Vorhersagen oder der Erkennung von Trends wird supervised learning eingesetzt. Typische Regressionsaufgaben beinhalten kontinuierliche oder reale Eingangsdaten, wie Alter, Gehalt oder Preise. Diese Daten analysiert der Algorithmus und lernt anhand der vorgegebenen Zielvariable die Muster und Zusammenhänge der Datenpunkte. Aufgrund dieser Informationen kann das trainierte Modell nun auch präzise Vorhersagen und Empfehlungen aussprechen.
Zu den meistgenutzten Algorithmen gehören:
- Lineare Regression
- Künstliche neuronale Netze
- Entscheidungsbaumverfahren (Decision Trees) und abgeleitete Methoden wie
- Gradient Boosted Trees
- Random Forest
Beispiele für den Einsatz von Supervised Learning
Für überwachtes Lernen gibt es viele Beispiele in Wirtschaft und Forschung:
Churn Predicition im Customer Relationship Management
Möchte man im Customer Relationship Management die Wahrscheinlichkeit einer Abwanderung eines Kunden vorhersagen, nutzt man überwachtes Lernen. Dafür werden die Abwanderungen in der Vergangenheit betrachtet, genauer die Gründe für die Abwanderung. Das Modell findet in den Kundendaten Zusammenhänge, die zum Churn geführt haben und stellt Regeln hierfür auf.
Das Ergebnis ist eine präzise Vorhersage zur Churn-Wahrscheinlichkeit jedes einzelnen Kunden.
Spam Detection bei E-Mails
Moderne E-Mail-Anbieter arbeiten unentwegt an ihren Spam-Filtern, um das Nutzungserlebnis der User zu verbessern. Hier werden überwachte Lernverfahren eingesetzt, um diese Mails zu klassifizieren und eine Aussage zu der Art zu tätigen (Spam | nicht Spam). Trainiert wird das Modell mit im Voraus klassifizierten Mails, bei denen die Antwort auf die Zielvariable schon stehen. Unbekannte Mails können nun auf die Muster von Spam-Mails geprüft und so klassifiziert werden.
Empfehlungssysteme in Online-Diensten
Empfehlungssysteme sprechen Produkt- oder Content Empfehlungen aus, die zum einen auf dem Nutzverhalten (User-Item-Ansatz) des Users und zum anderen auf einer Ähnlichkeitsberechnung zu anderen Usern (User-User-Ansatz) basieren. Streaming-Anbieter, wie Netflix nutzen die Interessen eines Users, zusammen mit den Interessen ähnlicher User als Basis für die Content Empfehlungen auf der Startseite. Dabei kommt eine personalisierte Seite für jeden einzelnen Nutzer heraus.
Supervised Learning vs. Unsupervised Learning
Die Hauptsächlichen Unterschiede von Supervised und Unsupervised Learning auf einen Blick:
Unsupervised learning | Supervised learning | |
Prozess | Nur Inputdaten sind gegeben | Input- und Outputdaten sind vorgegeben |
Inputdaten | Beispieldaten ohne Zielvaribale | Beispieldaten mit Zielvaribale |
Echtzeiteinsatz | Kann in Echtzeit genutzt werden | Das Lernen passiert vor dem Deployment |
Anzahl der Features | Anzahl ist unbekannt | Anzahl ist bekannt |
Einsatzgebiete | Generierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk. | Vorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch. |
Folgende Grafik veranschaulicht die Unterschiede:
Unsupervised Learning findet selbständig heraus, dass es zwei Segmente gibt, bei Unsupervised Learning werden die zwei Gruppen vorgegeben.
Welche Herausforderungen gibt es bei überwachtem Lernen?
Das Training des Modells läuft nicht immer genau so, wie man es sich vorstellt:
Overfitting
Bei dem Training vom Modell kann es vorkommen, dass zu viele Merkmale oder Variablen (Features) in die Analyse mit einfließen und das Modell sich so zu sehr an den Trainingsdatensatz anpasst. Dieses Phänomen wird “Overfitting” genannt. Ein gutes Beispiel ist die Klassifizierung von Objekten in einem Bild. Steht im Trainingsdatensatz eine Tasse immer auf einem Tisch mit einer Tischdecke, wird diese Tasse in einem unbekannten Datensatz nur in diesem Zusammenhang erkannt.
Hier kann die Dimensionsreduktion mit unsupervised Learning helfen, den Menge an Features zu verringern.
Underfitting
Werden andererseits zu wenige Features genutzt, kann das Modell keine klaren Zusammenhänge und Muster erkennen, die auf die Zielvariable schließen lassen. In diesem Fall liegt ein “Underfitting” vor. Vergleichen kann man diese Situation mit einer Lernschwäche. In diesem Fall ist es ratsam, die gegebenen Variablen zu überprüfen und anzupassen.
Wer mehr über Machine Learning und den Prozess wissen möchte, hier ist ein ausführlicher Artikel.
Zusammenfassung und Potential: Überwachtes Lernen
Supervised Learning ist eine Methode des maschinellen Lernens, bei der klassifizierte Eingangsdaten mit vorgegebener Zielvariable als Datengrundlage für Klassifikations- und Regressionsaufgaben genutzt wird. Das Modell mit dem gewählten Algorithmus sucht im Datensatz nach Mustern und Zusammenhängen, die auf die Zielvariable schließen lassen. Das Ergebnis ist eine präzise Vorhersage oder Empfehlung für den jeweiligen Use-Case, sei es eine Personalisierung oder eine Vorhersage zu Zahlungsausfällen.
Schon heute ist überwachtes Lernen eine der meist genutzten Methoden des maschinellen Lernens, da die Möglichkeiten schier endlos sind. Von einer automatischen Bild-Indexierung für eine Datenbank bis hin zu Prognosen zu Regenwahrscheinlichkeiten ist sehr vieles möglich. Mit zunehmender Rechenleistung und wachsender Datenmengen werden die Berechnungen immer schneller und präziser.