Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren
Stichwörter dieser Seite Attribut-Wert-Paar, elementare Bedingung, atomare Bedingung, Bedingung, zusammengesetzte Bedingung, Konjunktion, Disjunktion, Komplement, Regel, Trainingsmenge
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.3.6: Einfache Regelsysteme

Die Konstruktion eines ID3-Entscheidungsbaums ging von einer Menge von Attributen aus, die jeweils eine bestimmte Wertemenge haben. Ein Ast eines Entscheidungsbaums lässt sich in eine Menge von durch AND verknüpfte Bedingungen an die Attribute übertragen, die in den Knoten des Asts vorkommen. Dabei können die gleichen Methoden verwendet werden wie beim booleschen Retrieval. Zunächst wird wieder für ein Attribut Ai:D->Ri und einen Wert rjMathematisches Zeichen: Element vonRi des Attributs ein Attribut-Wert-Paar oder eine elementare (bzw. atomare) Bedingung definiert , die durch Teilmengen von D charakterisiert ist:

(71)
(Ai=rj) :=A-1i({r j})={ dMathematisches Zeichen: Element vonD | Ai(d) =rj}
Solche elementaren Bedingungen lassen sich zu zusammengesetzten Bedingungen verknüpfen, dabei heißt die Verknüpfung
(Ai=rk) Mathematisches Zeichen: logisches und(Aj=rl) :=A-1i({r k})Mathematisches Zeichen: DurchschnittA- 1j({rl} )
Konjunktion oder AND-Verknüpfung und die Verknüpfung
(Ai=rk) Mathematisches Zeichen: logisches oder(Aj=rl) :=A-1i({r k})Mathematisches Zeichen: VereinigungA- 1j({rl} )
Disjunktion oder OR-Verknüpfung. Schließlich lässt sich noch das Komplement einer Bedingung bilden:
(AiMathematisches Zeichen: ungleichrk) :=Mathematisches Zeichen: logisches nicht(Ai=rk) :=D\A-1i({ rk})
Aufgrund der Definition über Mengen lassen sich die Verknüpfungen unmittelbar auf zusammengesetzte Bedingungen übertragen.

So wird die Menge der Beispiele aus dem ganz links liegenden Blatt im Baum aus Abbildung 51 durch folgende Bedingungen beschrieben:
(A1=r1) Mathematisches Zeichen: logisches und(A2=r4) =A-11({r 1})Mathematisches Zeichen: DurchschnittA- 12({r4} )
Nimmt man weiter an, dass die Beispiele dieses Blatts des Baums aus der Kategorie Kj sind, kann man diesen Ast in eine Regel der Form

(76)
IF (A1( d)=r1)Mathematisches Zeichen: logisches und (A2(d) =r4) THEN  dMathematisches Zeichen: Element vonKj
bzw.
(77)
(A1=r1)Mathematisches Zeichen: logisches und (A2=r4)Mathematisches Zeichen: TeilmengeKj
umwandeln.

Regeln haben die Vorteile, dass

  • sie häufig als Repräsentationsform z.B. in Expertensystemen verwendet werden,
  • sie für Menschen verständlich sind,
  • jede einzelne für sich allein verwendet werden kann,
  • sie sich leicht generalisieren und spezialisieren lassen.
Sie haben den Nachteil, dass viele der Bedingungen, nämlich die in der Nähe der Wurzel des Entscheidungsbaums, oft gespeichert und überprüft werden müssen. Man kann Regeln in Normalformen bringen, die eine automatisierte Verarbeitung erleichtern.

Pfeil als Kennzeichnung einer Unterueberschrift Definition 14: Normalformen

Die Regeln, die aus einem Entscheidungsbaum gewonnen werden, der durch einen ID3-Algorithmus erzeugt wurde, haben eine noch einfachere Form: Sie sind, wie das obige Beispiel, Konjunktionen von elementaren Bedingungen. Diese einzelnen elementaren Bedingungen können wegen der Kommutativität der Durchschnittsbildung beliebig umsortiert werden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 57: Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.

Allerdings ergeben sich bei einem solchen Vorgehen sehr viele Regeln, die in vielen Teilen identisch sind: Die Teile des Baums, die zwei Äste gemeinsam haben, erscheinen auch als gleiche elementare Bedingungen in den Regeln. Dadurch wird die Anzahl der Regeln aufgebläht und die Abarbeitung beschränkt sich im Wesentlichen auf viele Einzelvergleiche. Im Folgenden werde einige Verfahren genannt, mit denen der Zugriff effizienter gemacht werden kann, ohne dass ein kompletter Entscheidungsbaum verwendet wird.

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.6.1: Entscheidungslisten

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.6.2: Ripple-down-Regelmengen

Bei der "manuellen" Konstruktion der Listen in den Beispielen aus den Abbildungen 58 und 59 wurde von den Beispielen und nicht von einem Entscheidungsbaum ausgegangen. Im Prinzip lassen sich Regeln aus einer Trainingsmenge auf folgende einfache Weise gewinnen:

Pfeil als Kennzeichnung einer Unterueberschrift Algorithmus 5: Formale Regelbildung aus Beispielen

Wie man leicht sieht, kann auch dieser formale Algorithmus als ein Beweis der Aussage aus Abschnitt 2.3.5.1 verwendet werden, dass zu jeder endlichen konsistenten Trainingsmenge ein KDD-Verfahren existiert, das einen Algorithmus konstruiert, mit dem die Elemente der Trainingsmenge richtig kategorisiert werden können.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 59: Konstruktion eines Ripple-down Sets

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.6.3: Top-down- und Bottom-up-Methoden

Im Folgenden 2.3.7 soll ein Verfahren vorgestellt werden, das den formalen Algorithmus in eine praxistaugliche Form bringt.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.3.6Einfache Regelsysteme
Def. 14 Normalformen
Abb. 57 Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.
2.3.6.1Entscheidungslisten
Abb. 58 Konstruktion einer Entscheidungsliste
2.3.6.2Ripple-down-Regelmengen
Alg. 5 Formale Regelbildung aus Beispielen
Abb. 59 Konstruktion eines Ripple-down Sets
2.3.6.3Top-down- und Bottom-up-Methoden
Attribut-Wert-Paar, elementare Bedingung, atomare Bedingung, Bedingung, zusammengesetzte Bedingung, Konjunktion, Disjunktion, Komplement, Regel, konjunktive Normalform, disjunktive Normalform, Entscheidungsliste, Regel, decision list, Kategorie, Ripple-down-Regelmenge, Trainingsmenge, Regel, Top-down, Bottom-up atomare Bedingung, Attribut-Wert-Paar, Bedingung, Bottom-up, decision list, Disjunktion, disjunktive Normalform, elementare Bedingung, Entscheidungsliste, Kategorie, Komplement, Konjunktion, konjunktive Normalform, Regel, Regel, Regel, Ripple-down-Regelmenge, Top-down, Trainingsmenge, zusammengesetzte Bedingung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.