Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren
Stichwörter dieser Seite Regel, Skalenniveau, Ordinalskala, Split, splitting value
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.3.8: Regelsysteme mit zusammengesetzten Attributen

Die bisher vorgestellten Regeln und Vergleiche stützen sich auf einzelne Attribute und ihre Werte. Beziehungen zwischen Attributen können nur über den Vergleich von Attributwerten ausgedrückt werden. So kann die Bedingung, dass zwei Attribute den gleichen Wert annehmen sollen ( Ai(d)=Aj (d) für dMathematisches Zeichen: Element vonDq ), nur dadurch ausgedrückt werden, dass dies für jeden einzelnen Wert der Wertemengen aufgeschrieben bzw. geprüft wird. Lässt man Vergleiche zwischen Attributen zu, können häufig einfachere Regelsysteme formuliert werden (siehe Abbildung 63 ). Andererseits ergeben sich damit viel mehr Möglichkeiten, Regeln zu formulieren, wodurch der Suchraum für mögliche Regelsysteme enorm wächst. Es werden dann gute Heuristiken oder sinnvolle Einschränkungen des Suchraums benötigt, um noch in der Lage zu sein, mit annehmbarem Aufwand Regeln zu finden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 63: Regeln, die auch Vergleiche von Attributen zulassen

Beim ID3-Algorithmus war für jeden Knoten ein einziges Attribut ausgewählt worden, nach dem die Menge der Beispiele aufgeteilt wurde. Beim AQ-Algorithmus wurden Regeln konstruiert, die sich aus Bedingungen an mehrere Attribute zusammensetzen. In beiden Verfahren wurde nur geprüft, ob zwei Attributwerte gleich sind. Es wurden also - wie auch im Beispiel aus Abbildung 63 - nur Eigenschaften einer Nominalskala verwendet. Haben die Attribute ein höheres Skalenniveau, sind sie also z.B. reellwertig, können neben der Gleichheit weitere Eigenschaften genutzt werden.

Da die Komplexität der erzeugten Kategorisierungswerkzeuge (wie mehrfach erwähnt) stark von der Anzahl der angenommenen Attributwerte abhängt, ist es sinnvoll, aus Attributen mit großen Wertebereichen Attribute zu konstruieren, die nur wenige unterschiedliche Werte annehmen können. Dabei muss allerdings die Struktur der Wertebereiche der Ausgangsattribute berücksichtigt werden. Für Attribute, deren Wertebereich Ordinalskalenniveau hat, sind die einfachsten abgeleiteten Attribute Schwellwertfunktionen, die nur angeben, ob der angenommene Wert größer als eine fest vorgegebene Schwelle ist oder nicht. Die Schwelle wird auch Split oder splitting value genannt. Mit verschiedenen Splits können verschiedene vereinfachte Attribute aus einem Attribut abgeleitet werden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 64: Beispiele, die sich mit einem zusammengesetzten Attribut gut trennen lassen

Betrachtet man reellwertige Beispiel-Tupel als Punkte eines Vektorraums, so werden durch Schwellwertattribute Untermengen definiert, deren Grenzflächen parallel zu den Koordinatenachsen liegen. Um z.B. die in Abbildung 64 gezeigten Punkte zu trennen, müssten mehrere Schwellwertattribute aus den Attributen A1 und A2 abgeleitet werden.

Eine andere Möglichkeit bestünde darin, Attribute abzuleiten, die die Intervalle zwischen den Schwellen als Werte annehmen. (Im angegebenen Beispiel würde das die Anzahl der Werte allerdings nicht verringern.) In beiden Fällen werden dadurch, dass nicht mehr einzelne Werte, sondern Intervalle angegeben werden, verallgemeinerte Regeln erzeugt, die nicht nur die Punkte aus der Beispielmenge kategorisieren, sondern ganze Teilmengen der Ebene.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.3.8Regelsysteme mit zusammengesetzten Attributen
Abb. 63 Regeln, die auch Vergleiche von Attributen zulassen
Abb. 64 Beispiele, die sich mit einem zusammengesetzten Attribut gut trennen lassen
Regel, Skalenniveau, Ordinalskala, Split, splitting value Ordinalskala, Regel, Skalenniveau, Split, splitting value

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.