ZURÜCK

6.1.2.4: Häufigkeit der Terme

Im Abschnitt _3.4.3_ über Gewichtungsmethoden und beim probabilistischen Retrieval waren IDF-Maße eingeführt worden, die seltenen Termen höhere Gewichte zuordnen. Diese Gewichtung wurde vorgenommen, weil seltenen Termen eine höhere Diskriminationsfähigkeit zugeschrieben wird (vergleiche Abbildung _33_ ). Peat und Willett (1991 [->]) führen die Mißerfolge der automatischen Expansion darauf zurück, dass dabei häufige und damit wenig nützliche Terme gefunden werden. Sie haben diesen Effekt für drei Maße, das Cosinusmaß, das Dice-Maß und das Jaccard-Maß (hier Tanimoto-Maß genannt) gefunden. Im Abschnitt _3.4.5_ waren diese Maße zur Berechnung der Ähnlichkeiten zwischen Dokumenten verwendet worden. Hier werden sie zur Berechnung von Ähnlichkeiten zwischen Termen i und j verwendet. Dabei gehen lediglich die Anzahlen h(i) und h(j) der Dokumente ein, in denen die Terme i und j vorkommen, sowie die Anzahl h(i,j) der Dokumente, in denen i und j gemeinsam vorkommen. (Die Maße werden hier mit Dokumenthäufigkeiten formuliert. Setzt man in den Formeln aus Abschnitt _3.4.5_ charakteristische Funktionen (also Vektoren mit den Einträgen 0 und 1) ein, gehen z. B. die Summen der Quadrate im Nenner des Cosinusmaßes in solche Häufigkeiten über.) Für die drei Maße ergeben sich die Formeln:

und

Betrachtet man die Formeln aus statistischer Sicht, zeigt sich allerdings, dass sie häufige Terme begünstigen: Während die angegebenen Maße Ähnlichkeiten oder Winkel zwischen Vektoren messen, kann man auch überlegen, ob die Häufigkeit, mit der zwei Terme zusammen auftreten, zufällig, überzufällig oder unterzufällig ist.

Falls p(i) die Wahrscheinlichkeit des Auftretens des Terms i in einem Dokument und p(ij) die Wahrscheinlichkeit des gemeinsamen Auftretens der Terme i und j in einem Dokument bezeichnen, gilt nach der Definition der statistischen Unabhängigkeit bei zufälligem gemeinsamen Auftreten der Terme

p(ij)=p(i)·p(j)

Der Quotient

ist also genau dann kleiner als 1 , wenn die Terme unterzufällig häufig zusammen auftreten, er ist gleich 1 , wenn sie zufällig häufig zusammen auftreten, und er ist größer als 1 , wenn sie überzufällig häufig zusammen auftreten.

Ersetzt man die Wahrscheinlichkeiten durch relative Häufigkeiten, erhält man die Formel

wobei A die Anzahl der Dokumente bezeichnet, die bei der Berechnung der relativen Häufigkeit herangezogen wurden, und als konstanter Faktor in den folgenden Überlegungen ignoriert werden kann.

Vergleicht man diesen Quotienten mit den Ähnlichkeitsmaßen, so zeigt sich, dass alle drei Maße häufige Terme stärker begünstigen als dieser. Der cos(i,j) z. B. unterscheidet sich von U(i,j) durch den Faktor

:

Je häufiger ein Term ist, desto größer ist also der Faktor Fc .

Für die beiden anderen Maße lassen sich ähnliche Effekte zeigen:

Um einen Faktor FD für das Dice - Maß zu berechnen setzen wir

f·sd(i,j)=U(i,j)

mit fR . Dann folgt

Mit FD=(1)/(f) erhalten wir schließlich

sd(i,j)=FD·U(i,j)

Auch dieser Faktor FD wächst mit zunehmender Häufigkeit der Terme i und j .

Für das Tanimoto-Maß schließlich führt

Wobei f=g gilt, wenn h(i,j)=0 gilt. Schließlich können wir FT=(1)/(g) setzen und erhalten

sJ(i,j)=(1)/(f)·U(i,j)>=FT·U(i,j)

Auch der Faktor FT kann also mit zunehmender Häufigkeit der beteiligten Terme wachsen und damit häufige Terme begünstigen.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber