Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Cluster und unscharfe Mengen
Stichwörter dieser Seite Single-Link, Complete-Link, Ähnlichkeitsfunktion, Bottom-up
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.4.1: Cluster

Abbildung 65 zeigt ein Beispiel, in dem die Ähnlichkeit zu verschiedenen Prototypen als Kriterium verwendet wurde, um Tupel in überlappende Teilmengen einzuteilen. Ein ähnliches Verfahren wurde auch in SMART verwendet, wobei dort der Abstand zum Zentroid der Vektoren einer Teilmenge, also zu deren arithmetischem Mittel berechnet wurde.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 65: Cluster-Bildung mit der Hamming Distance

Während diese Teilmengen der Grundmenge sich überlappen, können z.B. mit der Single-Link- oder der Complete-Link-Methode disjunkte Zerlegungen einer Menge von Beispielen, zwischen denen eine Ähnlichkeitsfunktion definiert ist, berechnet werden. Beide Methoden sind Bottom-up-Verfahren, die sich nur durch die Definition der Ähnlichkeit zwischen zwei Teilmengen unterscheiden. Zunächst wird für jedes Beispiel einer Sammlung ein eigener Cluster anlegt, der nur dieses Beispiel enthält. Dann werden schrittweise jeweils die beiden Cluster vereinigt, die sich am ähnlichsten sind. Bei der Definition der Ähnlichkeit unterscheiden sich die beiden Verfahren: Bei der Single-Link-Methode wird die Ähnlichkeit zweier Teilmengen als die größte Ähnlichkeit zwischen einem Beispiel aus der einen und einem aus der anderen definiert, während die Complete-Link-Methode die kleinste Ähnlichkeit verwendet. Dieser Schritt kann so lange wiederholt werden, bis schließlich nur noch ein Cluster existiert. Wie bei den streng hierarchischen Klassifikationen ergibt sich auch hier eine Baumstruktur, auf deren Ebenen die Gesamtmenge der Beispiele in unterschiedlich viele (und damit in der Regel unterschiedlich große) Teilmengen zerlegt wird. Die Anzahl der Cluster ergibt sich durch die Anzahl der Vereinigungsschritte.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Cluster und unscharfe Mengen
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.4.1Cluster
Abb. 65 Cluster-Bildung mit der Hamming Distance
Hamming Distance, Single-Link, Complete-Link, Ähnlichkeitsfunktion, Bottom-up Ähnlichkeitsfunktion, Bottom-up, Complete-Link, Hamming Distance, Single-Link

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.