Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren
Stichwörter dieser Seite Trainingsmenge, training set, Trainingsphase, Testmenge, test set, Testphase, unabhängig
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.3.2: Trainings- und Testmenge

Um induktive Lernverfahren anwenden zu können, müssen Beispiele zur Verfügung stehen. Um Regelmäßigkeiten zu finden, verwendet man eine Trainingsmenge (training set). Das ist eine endliche Menge von Dokumenten oder Objekten (bzw. deren Tupeln), auf denen der KDD-Algorithmus arbeitet. Die Extraktion von Regelmäßigkeiten aus der Trainingsmenge bezeichnet man auch als Trainingsphase des KDD-Verfahrens.

Um die Ergebnisse zu überprüfen, verwendet man eine andere Menge von Beispielen, die so genannte Testmenge (test set). Sie besteht im Allgemeinen aus endlich vielen Dokumenten oder Objekten (bzw. deren Tupeln), die nicht zum Lernen verwendet wurden und so für das Regelwerk neu sein können. Die Überprüfung mit der Testmenge bezeichnet man auch als Testphase des KDD-Verfahrens. Zeigen die gefundenen Regeln auch auf dieser Testmenge gute Ergebnisse, so kann man annehmen, dass den gefundenen Regeln eine gewisse allgemeine Gültigkeit innerhalb des Bereichs zukommt, aus dem die Beispiele stammen.

Wenn nur wenige Beispiele zur Verfügung stehen, kann man auch die so genannte Leave-one-out-Methode anwenden: In vielen unabhängigen Lerndurchgängen werden jeweils alle bis auf ein einziges Tupel als Trainingsmenge verwendet. Der gewonnene Algorithmus wird jeweils an dem nicht verwendeten Tupel überprüft. Der Mittelwert über diese Prüfungen wird als Maß für die Güte des Lernalgorithmus verwendet. Bei diesem Vorgehen ist es natürlich wichtig, dass die Lerndurchgänge wirklich unabhängig voneinander durchgeführt werden, dass also kein Wissen über ein Tupel aus einem Lerndurchgang verwendet werden kann, wenn dieses Tupel als Testbeispiel überprüft wird.

Die Definition der Trainings- und Testmenge als Mengen ist insofern etwas problematisch, als in Mengen im mathematischen Sinn gleiche Elemente nicht mehrfach auftreten können. Bei Dokumenten oder Objekten ist das unproblematisch, da gleiche Dokumente oder Objekte physisch unterschieden werden können (und sei es nur durch den Zeitpunkt oder den Ort, an dem sie auftreten, oder durch unterschiedliche Inventarnummern). Bei den Tupeln, die durch Anwendung der Attribute auf die Objekte entstehen, sollten mehrere gleiche Objekte aber auf dasselbe Tupel abgebildet werden und damit in der Menge der Tupel nur einmal vorkommen. Da bei vielen KDD-Verfahren aber die Häufigkeit, mit der ein Dokument oder Objekt auftritt, ein wichtiger Parameter ist, sollten sich die Häufigkeiten gleicher Objekte oder Dokumente auch in der Trainingsmenge widerspiegeln. Formal lässt sich das durch einen zusätzlichen eindeutigen Bezeichner (wie einen Primärschlüssel) für die Tupel mit ansonsten gleichen Attributwerten lösen. Praktisch kann es z.B. dadurch gelöst werden, dass bei der Auswahl von Trainings-Tupeln aus der Trainingsmenge die Anzahl der Objekte, die auf ein Tupel abgebildet werden, berücksichtigt wird.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 50: Beispielmenge von Tupeln mit Kategorisierung

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.3.2Trainings- und Testmenge
Abb. 50 Beispielmenge von Tupeln mit Kategorisierung
Trainingsmenge, training set, Trainingsphase, Testmenge, test set, Testphase, unabhängig test set, Testmenge, Testphase, training set, Trainingsmenge, Trainingsphase, unabhängig

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.