Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Der ID3-Algorithmus
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.3.4.1: Formale Beschreibung des ID3-Algorithmus

Nach dieser eher formlosen Beschreibung soll nun eine formalere und ausführlichere Beschreibung gegeben werden, zunächst für die Konstruktion des Entscheidungsbaums:

Pfeil als Kennzeichnung einer Unterueberschrift Algorithmus 3: ID3 im Detail

Auswahlkriterium

In Schritt 2 muss ein Attribut Ai:D->Ri ausgewählt werden, das zur Selektion verwendet werden soll. Für jedes Attribut, das in Frage kommt, wird der Wert

(63)
E (Ai,Kj,rm) =
Mathematisches Zeichen: Summe
kMathematisches Zeichen: Element vonRi
| A-1i({k} )Mathematisches Zeichen: DurchschnittKj,rm|
Leere Abbildung mit der der Bruchstrich erzeugt wird
|Kj,rm|
I (k,Kj,rm)
berechnet. Dabei gilt
I (k,K) =
Mathematisches Zeichen: Summe
rMathematisches Zeichen: Element vonR0
-qk,rln ( qk,r)
mit
qk,r=
|A-10 ({r}) Mathematisches Zeichen: DurchschnittA-1i({k} )Mathematisches Zeichen: DurchschnittK|
Leere Abbildung mit der der Bruchstrich erzeugt wird
| A-1i({k} )Mathematisches Zeichen: DurchschnittK|
qk,r gibt also den Anteil der Tupel aus der Kategorie r unter den Tupeln des Knotens an, bei denen das Attribut Ai den Wert k annimmt. Der Entropiewert I(k,K) gibt damit an, wie durchmischt die Tupel des Knotens in Bezug auf das Attribut A0 , also in Bezug auf die gesuchte Kategorisierung, sind.

Es wird das Attribut zur Selektion gewählt, bei dem der Wert E(Ai,Kj,rm) minimal ist, bei dem die Kindknoten also bezüglich der gesuchten Kategorie möglichst wenig durchmischt sind.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 52: Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 53: ID3-Entscheidungsbaum

Die Auswahl dieser Optimierungsheuristik ist folgendermaßen motiviert: Betrachtet man die Beispiele eines Knotens als Informationsquelle über die Zugehörigkeit zu den Zielkategorien, dann gibt Formel (63 ) eine Abschätzung des Informationsgehalts bzw. der Entropie eines Kindknotens an, d.h. des mittleren Informationsgewinns, den das Inspizieren eines Beispiels aus der Menge bringt. Stammen fast alle Beispiele der Knotenmenge aus einer Kategorie, ist der zu erwartende Informationsgewinn gering. Stammen sie sogar alle aus einer Kategorie, ist entweder qk,r=0 oder qk,r=1 und damit ln(qk,r) =ln(1)=0 . In beiden Fällen ist das Produkt -qk,rln(qk,r) und damit I(k,K) gleich 0. In den anderen Fällen ist der Wert positiv, weil das Argument des Logarithmus zwischen 0 und 1 liegt und der Logarithmus daher negativ ist. Formel (63 ) gibt also den mittleren erwarteten Informationsgehalt der Kindknoten bei einer Aufteilung nach Attribut Ai an. Je kleiner der ist, desto größer ist der Informationsgewinn durch die Wahl von Ai .

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Der ID3-Algorithmus
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.3.4.1Formale Beschreibung des ID3-Algorithmus
Alg. 3 ID3 im Detail
Abb. 52 Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.
Abb. 53 ID3-Entscheidungsbaum
Wertebereich Wertebereich

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 17-11-2003 erzeugt.