R. Ferber: Data Mining & Information Retrieval 1.5.2.11

4.2.11: Größe und Repräsentativität des Trainingssets

Datenbanken enthalten häufig sehr viele Einträge. Weiter ist die Anzahl der möglichen Datentupel, die sich als karthesisches Produkt der Wertebereiche der Attribute ergibt, im allgemeinen sehr groß. Ähnlich wie bei der in Abschnitt _3.5.5_ beschriebenen Auswahl von Testkollektionen stellt sich daher auch bei Trainingssets das Problem, wie eine handhabbare, aber doch ausreichend große Menge an Beispielen zusammengestellt werden kann. Anders als bei den Testkollektionen muß dabei zwischen zwei unterschiedlichen Gesichtspunkten unterschieden werden: Dem Abdecken möglichst vieler Fälle und der Repräsentativität der Häufigkeiten, mit denen die Fälle auftreten. Wie oben gezeigt wurde, gibt es zu jedem endlichen, konsistenten Trainingsset ein Verfahren, mit dem ein Kategorisierungsalgorithmus konstruiert werden kann. Das ist unabhängig von der Häufigkeit, mit der die Tupel im Trainingsset auftreten. Andererseits hat die Häufigkeit, mit der Tupel mit gleichen Attributwerten im Trainingsset auftreten, z. B. beim ID3 Algorithmus Einfluß auf die Auswahl der Attribute, nach denen die Beispielmengen aufgeteilt werden. D. h. die Effizienz des gefundenen Kategorisierungsalgorithmus hängt sehr wohl von der Häufigkeit der Tupel und damit von der diesbezüglichen Repräsentativität des Trainingssets ab. Bei anderen KDD Verfahren, die keine Kategorisierung anstreben sondern z. B. statistische Aussagen über Datenbestände machen, hängt die "Richtigkeit" des Verfahrens natürlich noch stärker oder völlig von der Repräsentativität der Häufigkeiten ab.

Da bei einer größeren Anzahl von Attributen mit eventuell zahlreichen möglichen Werten die Anzahl der Beispiele in einem repräsentativen Trainingsset sehr schnell sehr groß und damit nicht mehr handhabbar wird, müssen häufig andere Methoden verwendet werden, um ein geeignetes Trainingsset zu konstruieren. Eine entscheidende Beobachtung für die Entwicklung solcher Methoden ist die, dass die Anwendung des Kategorisierungsalgorithmus auf ein Beispiel im Allgemeinen viel weniger aufwendig ist als der Rechenaufwand, der bei der Konstruktion eines Algorithmus' anteilig auf ein Beispiel des Trainingssets entfällt. Daraus hat man folgendes Verfahren entwickelt:

4.2.11: Größe und Repräsentativität des Trainingssets

4.2.11.1: Fenstertechnik