ZURÜCK

4.5.1: Cluster

Im Beispiel aus Abbildung _61_ wurde die Ähnlichkeit zu einem Prototyp als Kriterium verwendet, nach denen die Tupel in überlappende Teilmengen eingeteilt wurden. Ein ähnliches Verfahren wurde auch in SMART verwendet, wobei dort der Abstand zum Zentroid der Vektoren einer Teilmenge, also zu deren arithmetischem Mittel berechnet wurde.

Disjunkte Zerlegungen einer Menge von Beispielen, zwischen denen eine Ähnlichkeitsfunktion definiert ist, lassen sich z. B. mit der Single Link oder der Complete Link Methode berechnen. Beide Methoden sind bottom-up Verfahren, die sich nur durch die Definition der Ähnlichkeit zwischen zwei Teilmengen unterscheiden. Zunächst wird für jedes Beispiel einer Sammlung ein eigener Cluster anlegen, der nur dieses Beispiel enthält. Dann werden schrittweise jeweils die beiden Cluster vereinigt, die sich am ähnlichsten sind. Bei der Definition der Ähnlichkeit unterscheiden sich die beiden Verfahren: Bei der Single Link Methoden wird die Ähnlichkeit zweier Teilmengen als die größte Ähnlichkeit zwischen einem Beispiel aus der einen und einem aus der anderen definiert, während die Complete Link Methode die kleinste Ähnlichkeit verwendet. Dieser Schritt kann solange wiederholt werden, bis schließlich nur noch ein Cluster existiert. Wie bei den streng hierarchischen Klassifikationen ergibt sich auch hier eine Baumstruktur, auf deren Ebenen die Gesamtmenge der Beispiele in unterschiedlich viele (und damit in der Regel unterschiedlich große) Teilmengen zerlegt wird. Die Anzahl der Cluster ergibt sich durch die Anzahl der Vereinigungsschritte.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber