Einfache Regelsysteme [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren
Stichwörter dieser Seite	Attribut-Wert-Paar, elementare Bedingung, atomare Bedingung, Bedingung, zusammengesetzte Bedingung, Konjunktion, Disjunktion, Komplement, Regel, Trainingsmenge
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

2.3.6: Einfache Regelsysteme

Die Konstruktion eines ID3-Entscheidungsbaums ging von einer Menge von Attributen aus, die jeweils eine bestimmte Wertemenge haben. Ein Ast eines Entscheidungsbaums lässt sich in eine Menge von durch AND verknüpfte Bedingungen an die Attribute übertragen, die in den Knoten des Asts vorkommen. Dabei können die gleichen Methoden verwendet werden wie beim booleschen Retrieval. Zunächst wird wieder für ein Attribut A_i:D->R_i und einen Wert r_jR_i des Attributs ein Attribut-Wert-Paar oder eine elementare (bzw. atomare) Bedingung definiert , die durch Teilmengen von D charakterisiert ist:

(71)

(A_i=r_j) :=A^-1_i({r_j})={ dD | A_i(d) =r_j}

Solche elementaren Bedingungen lassen sich zu zusammengesetzten Bedingungen verknüpfen, dabei heißt die Verknüpfung

(A_i=r_k) (A_j=r_l) :=A^-1_i({r_k})A^-
1_j({r_l} )

Konjunktion oder AND-Verknüpfung und die Verknüpfung

(A_i=r_k) (A_j=r_l) :=A^-1_i({r_k})A^-
1_j({r_l} )

Disjunktion oder OR-Verknüpfung. Schließlich lässt sich noch das Komplement einer Bedingung bilden:

(A_ir_k) :=(A_i=r_k) :=D\A^-1_i({ r_k})

Aufgrund der Definition über Mengen lassen sich die Verknüpfungen unmittelbar auf zusammengesetzte Bedingungen übertragen.

So wird die Menge der Beispiele aus dem ganz links liegenden Blatt im Baum aus Abbildung 51 durch folgende Bedingungen beschrieben:
(A₁=r₁) (A₂=r₄) =A^-1₁({r₁})A^-
1₂({r₄} )
Nimmt man weiter an, dass die Beispiele dieses Blatts des Baums aus der Kategorie K_j sind, kann man diesen Ast in eine Regel der Form

(76)

IF (A₁( d)=r₁) (A₂(d) =r₄) THEN dK_j

bzw.

(77)

(A₁=r₁) (A₂=r₄)K_j

umwandeln.

Regeln haben die Vorteile, dass

sie häufig als Repräsentationsform z.B. in Expertensystemen verwendet werden,
sie für Menschen verständlich sind,
jede einzelne für sich allein verwendet werden kann,
sie sich leicht generalisieren und spezialisieren lassen.

Sie haben den Nachteil, dass viele der Bedingungen, nämlich die in der Nähe der Wurzel des Entscheidungsbaums, oft gespeichert und überprüft werden müssen. Man kann Regeln in Normalformen bringen, die eine automatisierte Verarbeitung erleichtern.

Definition 14: Normalformen

Die Regeln, die aus einem Entscheidungsbaum gewonnen werden, der durch einen ID3-Algorithmus erzeugt wurde, haben eine noch einfachere Form: Sie sind, wie das obige Beispiel, Konjunktionen von elementaren Bedingungen. Diese einzelnen elementaren Bedingungen können wegen der Kommutativität der Durchschnittsbildung beliebig umsortiert werden.

Abbildung 57: Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.

Allerdings ergeben sich bei einem solchen Vorgehen sehr viele Regeln, die in vielen Teilen identisch sind: Die Teile des Baums, die zwei Äste gemeinsam haben, erscheinen auch als gleiche elementare Bedingungen in den Regeln. Dadurch wird die Anzahl der Regeln aufgebläht und die Abarbeitung beschränkt sich im Wesentlichen auf viele Einzelvergleiche. Im Folgenden werde einige Verfahren genannt, mit denen der Zugriff effizienter gemacht werden kann, ohne dass ein kompletter Entscheidungsbaum verwendet wird.

2.3.6.1: Entscheidungslisten

2.3.6.2: Ripple-down-Regelmengen

Bei der "manuellen" Konstruktion der Listen in den Beispielen aus den Abbildungen 58 und 59 wurde von den Beispielen und nicht von einem Entscheidungsbaum ausgegangen. Im Prinzip lassen sich Regeln aus einer Trainingsmenge auf folgende einfache Weise gewinnen:

Algorithmus 5: Formale Regelbildung aus Beispielen

Wie man leicht sieht, kann auch dieser formale Algorithmus als ein Beweis der Aussage aus Abschnitt 2.3.5.1 verwendet werden, dass zu jeder endlichen konsistenten Trainingsmenge ein KDD-Verfahren existiert, das einen Algorithmus konstruiert, mit dem die Elemente der Trainingsmenge richtig kategorisiert werden können.

Abbildung 59: Konstruktion eines Ripple-down Sets

2.3.6.3: Top-down- und Bottom-up-Methoden

Im Folgenden 2.3.7 soll ein Verfahren vorgestellt werden, das den formalen Algorithmus in eine praxistaugliche Form bringt.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

2.3.6	Einfache Regelsysteme
Def. 14	Normalformen
Abb. 57	Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.
2.3.6.1	Entscheidungslisten
Abb. 58	Konstruktion einer Entscheidungsliste
2.3.6.2	Ripple-down-Regelmengen
Alg. 5	Formale Regelbildung aus Beispielen
Abb. 59	Konstruktion eines Ripple-down Sets
2.3.6.3	Top-down- und Bottom-up-Methoden

Attribut-Wert-Paar, elementare Bedingung, atomare Bedingung, Bedingung, zusammengesetzte Bedingung, Konjunktion, Disjunktion, Komplement, Regel, konjunktive Normalform, disjunktive Normalform, Entscheidungsliste, Regel, decision list, Kategorie, Ripple-down-Regelmenge, Trainingsmenge, Regel, Top-down, Bottom-up

atomare Bedingung, Attribut-Wert-Paar, Bedingung, Bottom-up, decision list, Disjunktion, disjunktive Normalform, elementare Bedingung, Entscheidungsliste, Kategorie, Komplement, Konjunktion, konjunktive Normalform, Regel, Regel, Regel, Ripple-down-Regelmenge, Top-down, Trainingsmenge, zusammengesetzte Bedingung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.