Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Rahmenbedingungen für Lernalgorithmen
Stichwörter dieser Seite Trainingsmenge, Trainingsmenge, Konsistenz
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.3.5.1: Konsistenz

Beim ID3-Algorithmus wurde vorausgesetzt, dass die Beispiele der Trainingsmenge konsistent sind. Allgemein lässt sich das so definieren:

Pfeil als Kennzeichnung einer Unterueberschrift Definition 12: Konsistenz

Gibt es nur ein vorherzusagendes Attribut, sagt die Definition, dass dessen Werte innerhalb der Beispielsammlung durch die der vorhersagenden Attribute eindeutig bestimmt sein müssen. Das bedeutet, dass nicht zwei Tupel, die für alle vorhersagenden Attributen gleiche Werte haben, in verschiedenen Kategorien liegen dürfen. Das wurde bereits bei der Definition der Kategorisierung gefordert. Aus der Definition folgt daher unmittelbar:

Pfeil als Kennzeichnung einer Unterueberschrift Satz 2: Kategorisierbarkeit konsistenter Beispielmengen

Im einfachsten Fall ist dieser Algorithmus eine Aufzählung der Beispiele. Ob mit dem Kategorisierungsalgorithmus auch neue Beispiele kategorisiert werden können, hängt von der Definition der Attribute ab: Wegen der Endlichkeit der Beispielmenge kann man annehmen, dass die Wertebereiche der Attribute endlich sind. Wenn ein Algorithmus, der mit einer Beispielmenge konstruiert wurde, zur Kategorisierung neuer Beispiele verwendet werden soll, können die Attribute in den neuen Beispielen eventuell Werte annehmen, die nicht in der Beispielmenge aufgetreten sind. In diesem Fall ist es sinnvoll dafür zu sorgen, dass die Wertemengen der Attribute von vornherein endlich sind. Bei reellen Zahlen kann das z.B. dadurch erreicht werden, dass Intervalle als Wertebereiche gewählt werden (siehe auch Abschnitt 2.3.5.3 ).

Endlichkeit des ID3 auf konsistenten Trainingsdaten

Bei einer (endlichen) konsistenten Trainingsmenge wird in jedem Knoten des Baums ein Attribut getestet, und die Tupel werden gemäß ihres Werts in diesem Attribut aufgeteilt. Jedes Attribut kann in einem Ast des Baums also höchstens einmal auftreten, da sonst die Forderung, dass es zwei verschiedene Werte innerhalb der Beispielmenge des Knotens annehmen muss, nicht mehr erfüllt ist. Spätestens, wenn alle Attribute abgearbeitet sind, haben sämtliche Tupel in diesem Endknoten des Baums auf allen vorhersagenden Attributen identische Werte. Wegen der Konsistenz handelt es sich also um genau ein Tupel, das natürlich nur zu einer Kategorie gehört.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Rahmenbedingungen für Lernalgorithmen
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.3.5.1Konsistenz
Def. 12 Konsistenz
Satz 2 Kategorisierbarkeit konsistenter Beispielmengen
Trainingsmenge, Konsistenz, konsistente Beispielsammlung, Trainingsmenge, Konsistenz konsistente Beispielsammlung, Konsistenz, Konsistenz, Trainingsmenge, Trainingsmenge

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.