Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden
Stichwörter dieser Seite überwachtes Lernen, vorherzusagendes Attribut, Nominalskala, Vektorraummodell, Skalenniveau, Single-Pass-Cluster-Verfahren
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.4: Cluster und unscharfe Mengen

Kategorisierungen, wie sie in Abschnitt 2.3.1 eingeführt wurden, zerlegen eine Menge von Beispielen in disjunkte Teilmengen. Die zu lernenden Kategorisierungsalgorithmen bilden diese Zerlegung nach, indem Bedingungen an die vorhersagenden Attribute gestellt werden. Das geschieht im Allgemeinen in einem überwachten Lernverfahren, also einem Verfahren, bei dem die Zerlegung durch die vorherzusagenden Attribute vorgegeben ist. Dazu wird (wie beim ID3) lediglich Nominalskalenniveau benötigt, man muss also nur entscheiden können, ob zwei Attributwerte gleich oder ungleich sind.

Im Vektorraummodell des IR wurden die Dokumente nach ihrer Ähnlichkeit zu einer Anfrage in eine Rangfolge gebracht, aus der durch Vorgabe einer Ähnlichkeitsschwelle oder einer festen Anzahl von Dokumenten zu verschiedenen Anfragen oder Prototypen Mengen ähnlicher Dokumente gebildet werden können. Dabei wird die Tatsache ausgenutzt, dass zwischen den Dokumenten Ähnlichkeiten oder Abstände berechnet werden können, sie also ein höheres Skalenniveau besitzen. Dafür werden im einfachen Vektorraummodell keine überwachten Lernverfahren verwendet. Die Ähnlichkeiten - und damit die Einteilung in Teilmengen - werden aus den Repräsentationen der Dokumente berechnet und nicht aus vorgegebenen Kategorisierungen.

Solche Einteilungen sind im Allgemeinen keine Zerlegungen der Beispielmenge: Zum einen müssen die Teilmengen, die sich dabei ergeben, nicht mehr disjunkt sein, zum anderen muss die Vereinigung der Teilmengen nicht mehr die gesamte Beispielmenge ergeben.

Im Folgenden sollen verschiedene Arten, Teilmengen zu konstruieren, kurz dargestellt werden, um dann mit den unscharfen Mengen eine Verallgemeinerung des Mengenkonzepts vorzustellen.

Pfeil als Kennzeichnung einer Unterueberschrift 2.4.1: Cluster

In dem einfachen Beispiel aus Abbildung 65 haben alle Elemente einer Menge die gleiche Ähnlichkeit bzw. den gleichen Abstand zum jeweiligen Prototypen. Bei feiner abgestuften Ähnlichkeitsmaßen können die Elemente einer über eine Schranke definierten Menge - wie sie beispielsweise im Single-Pass-Cluster-Verfahren von SMART verwendet wurde (siehe Abschnitt 1.3.6.6 ) - unterschiedlich ähnlich zum definierenden Prototypen sein. Um solche Unterschiede darzustellen, kann man die Theorie der unscharfen Mengen verwenden. In dieser Theorie lassen sich unterschiedliche Grade der Zugehörigkeit zu einer Menge beschreiben. Sie kann auch verwendet werden, wenn die Bestimmung der Zugehörigkeit zu einer Menge oder Kategorie mit Unsicherheiten behaftet ist. Bei unscharfen Mengen kann man angeben, wie groß die "Sicherheit" ist, dass ein Element zu einer Menge oder Kategorie gehört.

Pfeil als Kennzeichnung einer Unterueberschrift 2.4.2: Unscharfe Mengen

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.4Cluster und unscharfe Mengen
2.4.1Cluster
Abb. 65 Cluster-Bildung mit der Hamming Distance
2.4.2Unscharfe Mengen
Def. 17 Unscharfe Menge
Def. 18 Träger, Kern, Schnitte und Höhe
Abb. 66 Unscharfe Mengen zur Beschreibung von Lebensaltern
Satz 3 Festlegung durch Schnitte
Abb. 67 Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den Alpha-Schnitten
Def. 19 Vereinigung, Durchschnitt und Komplement
Abb. 68 Vereinigung und Durchschnitt von unscharfen Mengen
überwachtes Lernen, vorherzusagendes Attribut, Nominalskala, Vektorraummodell, Skalenniveau, Hamming Distance, Single-Link, Complete-Link, Ähnlichkeitsfunktion, Bottom-up, Single-Pass-Cluster-Verfahren, unscharfe Menge, Cluster-Verfahren, Fuzzy Set, Grad der Mitgliedschaft, Zugehörigkeitsfunktion, membership function, unscharfe Menge, Grundbereich, Grad der Zugehörigkeit, scharfe Menge, charakteristische Funktion, Vektorraummodell, leere unscharfe Menge, Träger, support, Alpha-Schnitt, Schnitt, Kern, Höhe, Durchschnitt, Vereinigung, Durchschnitt, unscharfes Schließen, unscharfe Relation, vorherzusagendes Attribut, vorhersagendes Attribut Ähnlichkeitsfunktion, Alpha-Schnitt, Bottom-up, charakteristische Funktion, Cluster-Verfahren, Complete-Link, Durchschnitt, Durchschnitt, Fuzzy Set, Grad der Zugehörigkeit, Grad der Mitgliedschaft, Grundbereich, Hamming Distance, Höhe, Kern, leere unscharfe Menge, membership function, Nominalskala, scharfe Menge, Schnitt, Single-Link, Single-Pass-Cluster-Verfahren, Skalenniveau, support, Träger, überwachtes Lernen, unscharfe Menge, unscharfe Menge, unscharfe Relation, unscharfes Schließen, Vektorraummodell, Vektorraummodell, Vereinigung, vorhersagendes Attribut, vorherzusagendes Attribut, vorherzusagendes Attribut, Zugehörigkeitsfunktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.