ZURÜCK

3.4.6.2: Berechnung von Dokumentclustern und ihrer Zentroide

Die Dokumente werden in Cluster zusammengefasst. Das geschieht mit der single pass Methode:

  1. Setze die Menge der Cluster C=Ø
  2. Für ein neues Dokument d berechne die Ähnlichkeiten zu den Zentroiden aller Cluster cC und füge d zu allen Clustern hinzu, bei denen die Ähnlichkeit zum Zentroid größer als eine vorgegebene Schranke ist. Berechne für diese Cluster den Zentroid nach der Formel

    neu.
  3. Falls d zu keinem Cluster hinzugefügt wurde, eröffne einen neuen Cluster mit dem einzigen Element d . Setze dessen Zentroid auf d . Gehe nach Schritt 2.

Dieses Verfahren liefert Cluster ähnlicher Dokumente, die sich überlappen können. Es wird vor allem verwendet, um den Zugriff auf Dokumente zu beschleunigen. Dazu wird eine Anfrage zunächst mit den Zentroiden der Cluster verglichen. Ein Vergleich mit Dokumentvektoren findet dann nur noch in dem Cluster statt, dessen Zentroid dem Anfragevektor am ähnlichsten ist.

Dieses Verfahren kann auch mehrstufig angewendet werden, indem die Cluster einer Ebene wieder zu Clustern einer höheren Ebene zusammengefasst werden.

Damit dieses Verfahren effektiv ist, sollten die Cluster alle eine ähnliche mittlere Größe haben. Um das zu erreichen kann man

Die Verwendung von Dokumentclustern als Zugriffsverfahren scheint zur Zeit nicht weiterverfolgt zu werden.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber