Training-, Validierung- und Testdatensatz

Um ein Machine Learning Modell korrekt zu trainieren, wird ein Datensatz (Trainingsdaten) benötigt. Unüberwachtes Lernen braucht keine Beispiele und kann direkt mit den Eingabedaten trainiert werden. Überwachtes Lernen hingegen braucht Beispieldaten, also Daten wo die Zielvariable vorgegeben ist (bspw. Kauf Ja/Nein). Diesen Datensatz nennt man auch Beispieldatensatz.

Bei überwachten Lernverfahren wird dieser Datensatz in der Regel in mindestens drei verschiedene Datensätze unterteilt: Training-, Validierung- und Testdaten.

Training, Validierung- und Testdaten für Machine Learning
Training, Validierung- und Testdaten zum Trainieren von Machine Learning Algorithmen.

Alle drei Datensätze werden aus dem „Machine Learning Flatfile“ (Beispieldatensatz) erstellt. Eine mögliche Aufteilung könnte folgende sein:

  • 70% Trainingsdatensatz
  • 20% Validierungsdatensatz
  • 10% Testdatensatz

Im Folgenden gehe ich auf die drei Datensätze für Machine Learning ein.

Trainingsdaten

Ein Trainingsdatensatz ist ein Datensatz mit Beispielen (oder auch Zielvariablen genannt), die für das Lernen der Muster und Zusammenhänge in den Daten verwendet wird. Die Anpassung der Gewichte des Algorithmus wird über den Trainingsdatensatz antrainiert d.h. der Algorithmus lernt aus diesen Daten. Trainingsdaten mit Beispielen werden für Klassifikations- und Regressionsprobleme benötigt.

Teilen des Datensatzes in Training- und Testdaten.
Teilen des Datensatzes in Training- und Testdaten.

Häufig tendieren Algorithmen dazu, bei den gelernten Mustern aus den Trainingsdaten zu einer Überanpassung (im Englischen „Overfitting“). Das heißt, die Zusammenhänge und Beziehungen aus den Trainingsdaten werden von dem Algorithmus zu stark antrainiert und diese Regeln funktionieren für die Gesamtheit nicht gut. 

Testdaten

Die Testdaten sind von den Trainingsdaten unabhängig, sollten jedoch die gleiche Wahrscheinlichkeitsverteilung wie der Trainingsdatensatz aufweisen.

Die Testdaten werden bei dem Training nicht genutzt d.h. der Algorithmus kennt die Daten nicht und kann diese nicht zum Lernen nutzen. Auch hier sind Beispiele bzw. Zielvariablen vorhanden, woran im Anschluss die Qualität des Modells gemessen werden kann.

Wenn das trainierte Modell gut zu den Testdaten passt, d.h. die Beispieldaten mit einer guten Qualität vorhersagt, kann das Modell auf unbekannte (noch zu bewertende) Daten angewandt werden.

Validierungsdaten

Ein Validierungsdatensatz ist ebenfalls ein Beispieldatensatz. Die Validierungsdaten werden für die Abstimmung der Hyperparameter (d.h. für künstliche Neuronale Netzwerke der Architektur) eines Modells verwendet.

So wird vor allem eine Überanpassung des Modells auf die Trainingsdaten vermieden.

Ähnliche Einträge

Ihr Ansprechpartner: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln künstliche Intelligenz, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.