Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren -> Kookurrenzverfahren
Stichwörter dieser Seite Gewichtungsmethode, IDF, Expansion, Cosinus-Maß, Tanimoto-Maß, Unabhängigkeit, Ähnlichkeitsmaß
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5.2.4: Häufigkeit der Terme

In Abschnitt 1.3.6.3 über Gewichtungsmethoden und beim probabilistischen Retrieval waren IDF-Maße eingeführt worden, die seltenen Termen höhere Gewichte zuordnen. Diese Gewichtung wurde vorgenommen, weil seltenen Termen eine höhere Diskriminationsfähigkeit zugeschrieben wird (siehe Abbildung 32 ). Peat und Willett (1991) [->] führen die Misserfolge der automatischen Expansion darauf zurück, dass dabei vor allem häufige und damit wenig nützliche Terme gefunden werden. Sie haben diesen Effekt für drei Maße, das Cosinus-Maß, das Dice-Maß und das Jaccard-Maß (hier Tanimoto-Maß genannt), gefunden.

In Abschnitt 1.3.6.5 waren diese Maße zur Berechnung der Ähnlichkeiten zwischen Dokumenten verwendet worden. Hier werden damit Ähnlichkeiten zwischen Termen ti und tj berechnet. Dabei gehen lediglich die Anzahlen h(i) und h(j) der Dokumente ein, in denen die Terme ti und tj vorkommen, sowie die Anzahl h(i,j) der Dokumente, in denen ti und tj gemeinsam vorkommen. (Die Maße werden hier mit Dokumenthäufigkeiten formuliert. Setzt man in den Formeln aus Abschnitt 1.3.6.5 charakteristische Funktionen (also Vektoren mit den Einträgen 0 und 1) ein, gehen z.B. die Summen der Quadrate im Nenner des Cosinus-Maßes in solche Häufigkeiten über.) Für die drei Maße ergeben sich die Formeln:
cos (i,j) =
h( i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
(h(i) h(j))1/2
DICE (i,j) =sd ( i,j) =
2·h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)+h( j)
und
TANIMOTO (i,j) =sJ (i,j) =
h( i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i) +h(j)-h(i,j)
Betrachtet man die Formeln aus statistischer Sicht, zeigt sich allerdings, dass sie häufige Terme begünstigen: Während die angegebenen Maße Ähnlichkeiten oder Winkel zwischen Vektoren messen, kann man auch überlegen, ob die Häufigkeit, mit der zwei Terme zusammen auftreten, zufällig, überzufällig oder unterzufällig ist.

Falls p(i) die Wahrscheinlichkeit des Auftretens des Terms i in einem Dokument und p(iMathematisches Zeichen: Durchschnittj) die Wahrscheinlichkeit des gemeinsamen Auftretens der Terme i und j in einem Dokument bezeichnen, gilt nach der Definition der statistischen Unabhängigkeit bei zufälligem gemeinsamen Auftreten der Terme
p(iMathematisches Zeichen: Durchschnittj)=p(i) ·p(j)
Der Quotient
p(iMathematisches Zeichen: Durchschnittj)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(i)·p(j)
ist also genau dann kleiner als 1 , wenn die Terme unterzufällig häufig zusammen auftreten. Er ist gleich 1 , wenn sie zufällig häufig zusammen auftreten, und er ist größer als 1 , wenn sie überzufällig häufig zusammen auftreten.

Ersetzt man die Wahrscheinlichkeiten durch relative Häufigkeiten, erhält man die Formel

(200)
U (i,j) =A·
h( i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i) ·h(j)
wobei A die Anzahl der Dokumente bezeichnet, die bei der Berechnung der relativen Häufigkeit herangezogen wurden, und als konstanter Faktor in den folgenden Überlegungen ignoriert werden kann.

Vergleicht man diesen Quotienten mit den Ähnlichkeitsmaßen, so zeigt sich, dass alle drei Maße häufige Terme stärker begünstigen als dieser. Der cos(i,j) z.B. unterscheidet sich von U(i,j) durch den Faktor Fc=(h(i) h(j))1/2 :
cos (i,j) =
h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
(h(i)h(j))1/2
=
h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)h(j)
·(h(i)h(j))1/2
= U(i,j) ·(h(i)h(j))1/2
Je häufiger ein Term vorkommt, desto größer ist der Faktor Fc . Für die beiden anderen Maße lassen sich ähnliche Effekte zeigen: Um einen Faktor FD für das Dice-Maß zu berechnen setzt man
f·sd(i,j)=U(i,j)
mit fMathematisches Zeichen: Element vonR . Dann folgt
f=
h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)·h(j)
·
2(h(i) +h(j))
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i,j)
=2
h(i)+h(j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)·h( j)
und
f=2(
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(j)
+
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)
)
Mit
FD=
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
f
erhält man schließlich
sd(i,j)=F D·U(i,j)
Auch dieser Faktor FD wächst mit zunehmender Häufigkeit der Terme i und j .

Für das Tanimoto-Maß schließlich führt
f·sJ(i,j) =U(i,j)
zu
f=
h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)·h(j)
·
h(i)+ h(j)-h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i,j)
und
f=
h(i)+h( j)-h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)·h( j)
=
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h( j)
+
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h( i)
-
h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)·h( j)

Da h(i)>=h(i,j) und h(j)>=h(i,j) gilt, folgt
h(i,j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h (i)·h(j)
<=
h(i)+h (j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i )·h(j)
<=
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(j)
+
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)
und damit
0<=f<=
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(j)
+
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
h(i)
=:g
Wobei f=g gilt, wenn h(i,j)=0 ist. Schließlich kann man
FT=
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
g
setzen und erhält
sJ (i,j) =
1
Leere Abbildung mit der der Bruchstrich erzeugt wird
f
·U (i,j) >=FT·U (i,j)
Auch der Faktor FT kann also mit zunehmender Häufigkeit der beteiligten Terme wachsen und damit häufige Terme begünstigen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren -> Kookurrenzverfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5.2.4Häufigkeit der Terme
Gewichtungsmethode, IDF, Expansion, Cosinus-Maß, Tanimoto-Maß, Unabhängigkeit, Ähnlichkeitsmaß Ähnlichkeitsmaß, Cosinus-Maß, Expansion, Gewichtungsmethode, IDF, Tanimoto-Maß, Unabhängigkeit

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.