Um ein Machine Learning Modell korrekt zu trainieren, wird ein Datensatz (Trainingsdaten) benötigt. Unüberwachtes Lernen braucht keine Beispiele und kann direkt mit den Eingabedaten trainiert werden. Überwachtes Lernen hingegen braucht Beispieldaten, also Daten wo die Zielvariable vorgegeben ist (bspw. Kauf Ja/Nein). Diesen Datensatz nennt man auch Beispieldatensatz.
Bei überwachten Lernverfahren wird dieser Datensatz in der Regel in mindestens drei verschiedene Datensätze unterteilt: Training-, Validierung- und Testdaten.
Alle drei Datensätze werden aus dem „Machine Learning Flatfile“ (Beispieldatensatz) erstellt. Eine mögliche Aufteilung könnte folgende sein:
- 70% Trainingsdatensatz
- 20% Validierungsdatensatz
- 10% Testdatensatz
Im Folgenden gehe ich auf die drei Datensätze für Machine Learning ein.
Trainingsdaten
Ein Trainingsdatensatz ist ein Datensatz mit Beispielen (oder auch Zielvariablen genannt), die für das Lernen der Muster und Zusammenhänge in den Daten verwendet wird. Die Anpassung der Gewichte des Algorithmus wird über den Trainingsdatensatz antrainiert d.h. der Algorithmus lernt aus diesen Daten. Trainingsdaten mit Beispielen werden für Klassifikations- und Regressionsprobleme benötigt.
Häufig tendieren Algorithmen dazu, bei den gelernten Mustern aus den Trainingsdaten zu einer Überanpassung (im Englischen „Overfitting“). Das heißt, die Zusammenhänge und Beziehungen aus den Trainingsdaten werden von dem Algorithmus zu stark antrainiert und diese Regeln funktionieren für die Gesamtheit nicht gut.
Testdaten
Die Testdaten sind von den Trainingsdaten unabhängig, sollten jedoch die gleiche Wahrscheinlichkeitsverteilung wie der Trainingsdatensatz aufweisen.
Die Testdaten werden bei dem Training nicht genutzt d.h. der Algorithmus kennt die Daten nicht und kann diese nicht zum Lernen nutzen. Auch hier sind Beispiele bzw. Zielvariablen vorhanden, woran im Anschluss die Qualität des Modells gemessen werden kann.
Wenn das trainierte Modell gut zu den Testdaten passt, d.h. die Beispieldaten mit einer guten Qualität vorhersagt, kann das Modell auf unbekannte (noch zu bewertende) Daten angewandt werden.
Validierungsdaten
Ein Validierungsdatensatz ist ebenfalls ein Beispieldatensatz. Die Validierungsdaten werden für die Abstimmung der Hyperparameter (d.h. für künstliche Neuronale Netzwerke der Architektur) eines Modells verwendet.
So wird vor allem eine Überanpassung des Modells auf die Trainingsdaten vermieden.