Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Der probabilistische Retrieval-Ansatz
Stichwörter dieser Seite Trainingsmenge, Relevanz, Dokumenthäufigkeit, IDF, Skalarprodukt, Dokumentvektor, Query-Vektor
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.2.3: Die Robertson-Sparck-Jones-Formel

Ähnlich wie im vorigen Abschnitt entwickelt, wird bei der Robertson-Sparck-Jones-Formel (Robertson, Walker, Hancock-Beaulieu und Gatford, 1995 [->] ; Robertson, Walker, Beaulieu, Gatford und Payne, 1996 [->] ) vorgegangen. Mit ihr lassen sich Gewichte für Terme in Abhängigkeit von einer Anfrage berechnen. Als Gewicht für einen Term tk wird der Wert
vk=log
(R( q,k)+0,5)/( R(q)-R(q,k) +0,5)
Leere Abbildung mit der der Bruchstrich erzeugt wird
(d( k)-R(q,k) +0,5)/(N-d(k) -R(q)+R(q,k) +0,5)
berechnet, wobei N die Anzahl der Dokumente in der Sammlung bezeichnet, R(q) die Anzahl der zur Anfrage q relevanten Dokumente in der Trainingsmenge (es gilt also R(q)=|r-1 q({1}) | im Sinne der Definition der Relevanz aus Abschnitt 1.3.7.2 ). d(k) bezeichnet die Anzahl aller Dokumente, die den Term tk enthalten, und R(q,k) die Anzahl der relevanten Dokumente, die den Term tk enthalten. Im Zähler steht das Verhältnis der Anzahl der relevanten Dokumente, die den Term tk enthalten, zur Anzahl der relevanten Dokumente, die den Term nicht enthalten. (Die Addition von 0,5 verbessert die Schätzung und sorgt dafür, dass nicht durch 0 dividiert wird.) Im Nenner steht das Verhältnis der Anzahl der Dokumente, die den Term enthalten und nicht relevant sind zur Anzahl derer, die den Term nicht enthalten und nicht relevant sind.

In diese Formel gehen also wie beim probabilistischen Retrieval-Modell aus dem vorhergehenden Abschnitt sowohl Relevanzbeurteilungen, die entweder aus Trainingsdaten oder aus dem Relevance Feedback stammen können, als auch statistische Daten des entsprechenden Terms (wie die Dokumenthäufigkeit) ein.

Betrachtet man die Definitionen des Retrieval-Status-Werts des probabilistischen Modells und der Robertson-Sparck-Jones-Formel genauer, ergibt sich im Einzelnen: R(q,k)=relk , R(q)=rel , N-R(q)=nrel , d(k)-R(q,k) = nrelk . Bis auf die Addition von 0,5 stimmen also die Robertson-Sparck-Jones-Formel und ein Summand im Retrieval-Status-Wert des probabilistischen Modells überein.

Wenn keine Relevanzdaten vorliegen, können R(q) und R(q,k) auf 0 gesetzt werden. Dann wird aus der Robertson-Sparck-Jones-Formel eine IDF-Formel:
vk=log
(0,5) /(0,5)
Leere Abbildung mit der der Bruchstrich erzeugt wird
( h(k)+0,5) /(N-h(k)+0,5)
=log
(N-h( k)+0,5)
Leere Abbildung mit der der Bruchstrich erzeugt wird
( h(k)+0,5)

Die Gewichte können mit dem Skalarprodukt
s (wi,q) =
Mathematisches Zeichen: Summe
{j | qj=1}
vj=
n
Mathematisches Zeichen: Summe
j=1
vj·qj
zwischen dem Dokumentvektor v und einem Query-Vektor qMathematisches Zeichen: Element von{0,1}n oder einem anderen Ähnlichkeitsmaß verwendet werden. Im Fall des Skalarprodukts ergibt sich damit im Wesentlichen der Retrieval-Status-Wert des probabilistischen Modells.

Wenn die Gewichte aufgrund eines größeren Trainingskorpus berechnet werden sollen, erfordert das einen höheren Speicher- bzw. Rechenaufwand, da zu jeder Anfrage der Wert R(q) und zu jedem Term-Anfrage-Paar der Wert R(q,k) gespeichert bzw. aus den Trainingsdaten oder dem Feedback ermittelt werden muss. Das Vorgehen ähnelt dem bei der "Dynamisierung des Dokumentenraums", wie es in Abschnitt 1.3.6.6 über das SMART-System beschrieben wurde. Allerdings werden bei der Robertson-Sparck-Jones-Formel im Allgemeinen die Gewichte nur in Bezug auf eine Anfrage, also auch nur in einer Sitzung verändert.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Der probabilistische Retrieval-Ansatz
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.2.3Die Robertson-Sparck-Jones-Formel
Trainingsmenge, Relevanz, Dokumenthäufigkeit, IDF, Skalarprodukt, Dokumentvektor, Query-Vektor Dokumenthäufigkeit, Dokumentvektor, IDF, Query-Vektor, Relevanz, Skalarprodukt, Trainingsmenge

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.