Machine Learning

Training-, Validierung- und Testdatensatz

Um ein Machine Learning Modell korrekt zu trainieren, wird ein Datensatz (Trainingsdaten) benötigt. Unüberwachtes Lernen braucht keine Beispiele und kann direkt mit den Eingabedaten trainiert werden. Überwachtes Lernen hingegen braucht Beispieldaten, also Daten wo die Zielvariable vorgegeben ist (bspw. Kauf Ja/Nein). Diesen Datensatz nennt man auch Beispieldatensatz.

Bei überwachten Lernverfahren wird dieser Datensatz in der Regel in mindestens drei verschiedene Datensätze unterteilt: Training-, Validierung- und Testdaten.

Training, Validierung- und Testdaten für Machine Learning
Training, Validierung- und Testdaten zum Trainieren von Machine Learning Algorithmen.

Alle drei Datensätze werden aus dem „Machine Learning Flatfile“ (Beispieldatensatz) erstellt. Eine mögliche Aufteilung könnte folgende sein:

  • 70% Trainingsdatensatz
  • 20% Validierungsdatensatz
  • 10% Testdatensatz

Im Folgenden gehe ich auf die drei Datensätze für Machine Learning ein.

Trainingsdaten

Ein Trainingsdatensatz ist ein Datensatz mit Beispielen (oder auch Zielvariablen genannt), die für das Lernen der Muster und Zusammenhänge in den Daten verwendet wird. Die Anpassung der Gewichte des Algorithmus wird über den Trainingsdatensatz antrainiert d.h. der Algorithmus lernt aus diesen Daten. Trainingsdaten mit Beispielen werden für Klassifikations- und Regressionsprobleme benötigt.

Teilen des Datensatzes in Training- und Testdaten.
Teilen des Datensatzes in Training- und Testdaten.

Häufig tendieren Algorithmen dazu, bei den gelernten Mustern aus den Trainingsdaten zu einer Überanpassung (im Englischen „Overfitting“). Das heißt, die Zusammenhänge und Beziehungen aus den Trainingsdaten werden von dem Algorithmus zu stark antrainiert und diese Regeln funktionieren für die Gesamtheit nicht gut. 

Testdaten

Die Testdaten sind von den Trainingsdaten unabhängig, sollten jedoch die gleiche Wahrscheinlichkeitsverteilung wie der Trainingsdatensatz aufweisen.

Die Testdaten werden bei dem Training nicht genutzt d.h. der Algorithmus kennt die Daten nicht und kann diese nicht zum Lernen nutzen. Auch hier sind Beispiele bzw. Zielvariablen vorhanden, woran im Anschluss die Qualität des Modells gemessen werden kann.

Wenn das trainierte Modell gut zu den Testdaten passt, d.h. die Beispieldaten mit einer guten Qualität vorhersagt, kann das Modell auf unbekannte (noch zu bewertende) Daten angewandt werden.

Validierungsdaten

Ein Validierungsdatensatz ist ebenfalls ein Beispieldatensatz. Die Validierungsdaten werden für die Abstimmung der Hyperparameter (d.h. für künstliche Neuronale Netzwerke der Architektur) eines Modells verwendet.

So wird vor allem eine Überanpassung des Modells auf die Trainingsdaten vermieden.

Weiterlesen

Clusteranalyse einfach erklärt

Clusteranalysen sind beliebte Methoden, um Daten nach einem Ähnlichkeitsmaß in homogene Gruppen einzuteilen. Sie finden Anwendung in Wirtschaft und Forschung. Dieser Artikel zeigt, was eine Clusteranalyse ist, welche Arten es […]

Was ist Unsupervised Learning (Unüberwachtes Lernen)?

Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen das maschinelle Lernverfahren in nicht kategorisierten Daten nach bisher unbekannten Mustern und Zusammenhängen sucht. Dieser Prozess funktioniert mit minimaler menschlicher Intervention. […]

Künstliche Intelligenz einfach erklärt! Definition, Arten und wo KI eingesetzt wird

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik und ermöglicht Maschinen autonom Probleme zu lösen und Entscheidungen zu treffen. Schon heute wird KI in vielen Anwendungen eingesetzt, um Prozesse zu […]

Was ist ein Algorithmus?

Woher weiß eine Software, wer die Liebe meines Lebens ist? Das versprechen zumindest die großen Dating-Portale – dabei hat das Programm keine Ahnung von Partnerschaft, geschweige denn von Liebe. Aber […]

Amazon Personalize: Funktionen, Anwendung und Vorteile

Der von Amazon Web Services (AWS) angebotene Service namens Amazon Personalize bietet Nutzern die Möglichkeit, die gleiche Machine Learning-Technologie zur Personalisierung zu verwenden, welche Amazon selbst nutzt. Dazu werden vom Nutzer keinerlei Erfahrungen […]

Was ist ein Machine Learning Engineer?

Ein Machine Learning Engineer ist ein wichtiger Bestandteil eines Data Science Teams. Er kümmert sich darum, dass Machine Learning Modelle in Produktion eingesetzt und das alle nötigen Prozesse dafür ineinander […]

Amazon Comprehend: Anwendung, Funktionen und Vorteile

Amazon Web Services (AWS) stellt einen voll verwalteten Natural Language Processing-Service namens Amazon Comprehend zur Verfügung. Amazon Comprehend bietet dem Nutzer die Möglichkeit, Informationen aus Texten zu extrahieren und Zusammenhänge zu erkennen. Durch Amazon Comprehend lassen sich zudem Bereiche wie die Extraktion von […]

AWS Transcribe

AWS Transcribe ist ein von Amazon angebotener Service, der zur Transkription von Audiodateien und gesprochener Sprache in Textform genutzt wird. Auf Basis von Deep-Learning-Prozessen agiert der Dienst automatisiert und hilft bei der […]

Was ist Amazon SageMaker?

Amazon SageMaker ist eine Everything-as-a-service-Cloud-Maschinenlernplattform von Amazon Web Services. Amazon SageMaker wird vor allem von Datenwissenschaftler und Entwicklern genutzt, um Modelle auf Basis von Machine Learning, in der Cloud zu erstellen, trainieren und einzusetzen. Das […]
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren