![]() |
![]() |
![]() |
![]() |
Im Abschnitt _3.4.3_ über Gewichtungsmethoden und beim probabilistischen Retrieval waren IDF-Maße eingeführt worden, die seltenen Termen höhere Gewichte zuordnen. Diese Gewichtung wurde vorgenommen, weil seltenen Termen eine höhere Diskriminationsfähigkeit zugeschrieben wird (vergleiche Abbildung _32_ ). Peat und Willett (1991 [->]) führen die Mißerfolge der automatischen Expansion darauf zurück, dass dabei häufige und damit wenig nützliche Terme gefunden werden. Sie haben diesen Effekt für drei Maße, das Cosinusmaß
Betrachtet man die Formeln aus statistischer Sicht, zeigt sich allerdings, dass sie häufige Terme begünstigen: Während die angegebenen Maße Ähnlichkeiten oder Winkel zwischen Vektoren messen, kann man auch überlegen, ob die Häufigkeit, mit der zwei Terme zusammen auftreten, zufällig, überzufällig oder unterzufällig ist.
Falls
p(X) die Wahrscheinlichkeit des
Auftretens des Terms X in einem Dokument
und p(XY) die Wahrscheinlichkeit des gemeinsamen Auftretens der
Terme X und Y in einem Dokument bezeichnen, gilt nach
der Definition der statistischen Unabhängigkeit
bei zufälligem gemeinsamen Auftreten der Terme
Y)=p(X)·p(Y)
Ersetzt man die Wahrscheinlichkeiten durch relative Häufigkeiten, erhält man die Formel
Vergleicht man diesen Quotienten mit den Ähnlichkeitsmaßen, so zeigt sich, dass alle drei Maße häufige Terme stärker begünstigen als dieser. Der COSINE(X,Y) z. B. unterscheidet sich von U(X,Y) durch den Faktor
Für die beiden anderen Maße lassen sich ähnliche Effekte zeigen:
Um einen Faktor FD für das Dice - Maß zu berechnen setzen wir
Für das Tanimoto-Maß schließlich führt
![]() |
![]() |
![]() |
![]() |