R. Ferber: Data Mining & Information Retrieval 1.5.2.13

4.2.13: Overfitting

In vielen Anwendungsfällen kann das Trainingsset aufgrund der großen Anzahl der möglichen Kombinationen von Attributwerten nicht alle Attribut-Wert Kombinationen abdecken. Wie oben beschrieben, kann man sich dann auf ein repräsentatives Trainingsset oder auf ein Trainingsset, in dem vor allem "schwierige" Fälle enthalten sind, beschränken. In solchen Fällen kann es zu sogenanntem Overfitting kommen. Das bedeutet, dass die Regeln sich an Eigenheiten des Trainingssets orientieren, die nicht für die gesamte Datenmenge charakteristisch sind, und dann bei neuen Datensätzen schlechtere Ergebnisse liefern, als es allgemeinere Regeln oder breitere Klassifikationen getan hätten. Das gilt insbesondere bei Verfahren wie der oben beschriebenen Fenstertechnik, die gezielt solche Beispiele ins Trainingsset aufnehmen, die schwierig zu kategorisieren sind, und dadurch kein repräsentatives Trainingsset verwenden. Wird durch solche Methoden beim Lernen das Gewicht zu Lasten von häufigen Beispielen auf sehr seltene und schwierige Beispiele gelegt, kann die Leistung des resultierenden Systems auf den häufigen Beispielen nachlassen, was bei einer Gesamtbewertung natürlich stärker zu Buche schlagen kann, als schlechtere Leistungen auf seltenen Beispielen.