ZURÜCK

4.2.2: Trainings- und Testset

Um induktive Lernverfahren anwenden zu können, müssen Beipiele zur Verfügung stehen. Um Regelmäßigkeiten zu finden, verwendet man ein Trainingsset, das ist eine endliche Menge von Dokumenten oder Objekten (bzw. deren Tupeln), auf denen der KDD Algorithmus arbeitet. Die Extraktion von Regelmäßigkeiten aus dem Trainingsset bezeichnet man auch als Trainingsphase des KDD Verfahrens.

Um die Ergebnisse zu überprüfen, verwendet man eine andere Menge von Beispielen, das sogenannte Testset. Es besteht im Allgemeinen aus endlich vielen Dokumenten oder Objekten (bzw. deren Tupeln), die nicht zum Lernen verwendet wurden und so für das Regelwerk neu sind. Die Überprüfung mit dem Testset bezeichnet man auch als Testphase des KDD-Verfahrens. Zeigen die gefundenen Regeln auch auf diesem Testset gute Ergebnisse, so kann man annehmen, dass den gefundenen Regeln eine gewisse allgemeine Gültigkeit innerhalb des Bereichs, aus dem die Beispiele stammen, zukommt.

Wenn nur wenige Beispiele zur Verfügung stehen, kann man auch die sogenannte "leave one out" Methode anwenden: In vielen unabhängigen Lerndurchgängen werden jeweils alle bis auf ein einziges Tupel als Trainingsset verwendet. Der gewonnene Algorithmus wird jeweils an dem nicht verwendeten Tupel überprüft. Der Mittelwert über diese Prüfungen wird als Maß für die Güte des Lernalgorithmus verwendet. Bei diesem Vorgehen ist es natürlich wichtig, dass die Lerndurchgänge wirklich unabhängig von einander durchgeführt werden, dass also kein Wissen über ein Tupel aus einem Lerndurchgang verwendet werden kann, wenn dieses Tupel als Testbeispiel überprüft wird.

Die Definition des Trainings- und Teststes als Mengen ist insofern etwas problematisch, als in Mengen gleiche Elemente nicht mehrfach auftreten können. Bei Dokumenten oder Objekten ist das unproblematisch, da gleiche Dokumente oder Objekte physisch unterschieden werden können (und sei es nur durch den Zeitpunkt oder den Ort, an dem sie auftreten oder durch unterschiedliche Inventarnummern). Bei den Tupeln, die durch Anwendung der Attribute auf die Objekte entstehen, sollten mehrere gleiche Objekte aber auf das selbe Tupel abgebildet werden und damit in der Menge der Tupel nur einmal vorkommen. Da bei vielen KDD Verfahren aber die Häufigkeit, mit der ein Dokument auftritt, ein wichtiger Parameter ist, sollten sich die Häufigkeiten gleicher Objekte oder Dokumente auch im Trainingsset widerspiegeln. Formal läßt sich das durch einen zusätzlichen eindeutigen Bezeichner (wie einen Primärschlüssel) für die Tupel mit ansonsten gleichen Attributwerten lösen. Praktisch kann es z. B. dadurch gelöst werden, dass bei der Auswahl von Trainingstupeln aus dem Trainingsset die Anzahl der Objekte, die auf ein Tupel abgebildet werden, berücksichtigt wird.

ZUGANGAbb. 43: Beispielmenge von Tupeln mit Kategorisierung


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber