ZURÜCK

3.4.5: Ähnlichkeitsfunktionen

Beim Skalarprodukt hängen die Ähnlichkeitswerte stark von Anzahl und Größe der einzelnen Werte im Vektor, die ungleich 0 sind, also der Anzahl der Terme in der Anfrage (oder im Dokument) ab. Der Maximalwert, den das Skalarprodukt zwischen einem Anfragevektor und den Dokumentvektoren einer Dokumentmengen annehmen kann, ist zunächst nur dadurch begrenzt, dass die beteiligten Vektoren nur endlich viele endliche Einträge haben.

Längere Dokumente haben statistisch gesehen daher größere Chancen, hohe Ähnlichkeitswerte zu bekommen, als kurze. Wählt man z. B. als lokale Gewichtung die Häufigkeit der Terme im Dokument würde sich mit dem Skalarprodukt (wegen dessen Linearität) die Ähnlichkeit verdoppeln, wenn man den Text eines Dokuments wiederholen, also zweimal hintereinander schreiben würde, obwohl sich das im Dokument enthaltene Wissen nicht ändert. Andererseits ist z. B. bei Literaturdatenbanken das Format des Nachweises vorgegeben und damit auch die Länge des Abstracts eher durch äußere Restriktionen als durch die Wichtigkeit des Artikels bestimmt. Einflüsse dieser Restriktionen würden beim Skalarprodukt direkt auf die Ähnlichkeitswerte und damit auf die Retrievalergebnisse durchschlagen.

Um die Eigenschaften verschiedener Ähnlichkeitsmaße zu vergleichen, kann man sich überlegen, wie die Vektoren verteilt sind, die zu einem gegebenen Vektor wi die gleiche Ähnlickeit haben. Jones und Furnas (1987 [->]) haben das für einige Ähnlichkeitsmaße untersucht und für den zweidimensionalen Fall dargestellt. Einige Ergebnisse dieser Untersuchung werden im Folgenden beschrieben. Diese geometrische Interpretation von Ähnlichkeitsmaßen ist natürlich nur eine Sichtweise: sie veranschaulicht die Eigenschaften im euklidischen Raum, also in der uns vertrauten Geometrie der Ebene oder des Raumes. Beobachtungen, die dabei gemacht werden, können Hinweise auf Eigenschaften der Ähnlichkeitsmaße geben; sie können aber die empirische Evaluierung der Maße nicht ersetzen.

ZUGANG3.4.5.1: Das Skalarprodukt

ZUGANG3.4.5.2: Das Cosinusmaß

ZUGANG3.4.5.3: Das Pseudo-Cosinusmaß

ZUGANG3.4.5.4: Das Dice-Maß

ZUGANG3.4.5.5: Das Overlap-Maß

ZUGANG3.4.5.6: Das Jaccard-Maß

Bei der Betrachtung der Orte mit den höchsten Ähnlichkeitswerten muß beachtet werden, dass natürlich nur die vorhandenen Dokumente mit einer Anfrage verglichen werden. Ist die Teilmenge des RN , in dem die Dokumentvektoren tatsächlich liegen, geeignet gewählt (bzw. wird sie von den Dokumentvektoren geeignet erzeugt), können auch diese Maße durchaus sinnvoll sein.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber