Die Robertson-Sparck-Jones-Formel [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze -> Der probabilistische Retrieval-Ansatz
Stichwörter dieser Seite	Trainingsmenge, Relevanz, Dokumenthäufigkeit, IDF, Skalarprodukt, Dokumentvektor, Query-Vektor
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

3.2.3: Die Robertson-Sparck-Jones-Formel

Ähnlich wie im vorigen Abschnitt entwickelt, wird bei der Robertson-Sparck-Jones-Formel (Robertson, Walker, Hancock-Beaulieu und Gatford, 1995 [->] ; Robertson, Walker, Beaulieu, Gatford und Payne, 1996 [->] ) vorgegangen. Mit ihr lassen sich Gewichte für Terme in Abhängigkeit von einer Anfrage berechnen. Als Gewicht für einen Term t_k wird der Wert

v_k=log
(R( q,k)+0,5)/( R(q)-R(q,k) +0,5)

(d( k)-R(q,k) +0,5)/(N-d(k) -R(q)+R(q,k) +0,5)

berechnet, wobei N die Anzahl der Dokumente in der Sammlung bezeichnet, R(q) die Anzahl der zur Anfrage q relevanten Dokumente in der Trainingsmenge (es gilt also R(q)=|r^-1_q({1}) | im Sinne der Definition der Relevanz aus Abschnitt 1.3.7.2 ). d(k) bezeichnet die Anzahl aller Dokumente, die den Term t_k enthalten, und R(q,k) die Anzahl der relevanten Dokumente, die den Term t_k enthalten. Im Zähler steht das Verhältnis der Anzahl der relevanten Dokumente, die den Term t_k enthalten, zur Anzahl der relevanten Dokumente, die den Term nicht enthalten. (Die Addition von 0,5 verbessert die Schätzung und sorgt dafür, dass nicht durch 0 dividiert wird.) Im Nenner steht das Verhältnis der Anzahl der Dokumente, die den Term enthalten und nicht relevant sind zur Anzahl derer, die den Term nicht enthalten und nicht relevant sind.

In diese Formel gehen also wie beim probabilistischen Retrieval-Modell aus dem vorhergehenden Abschnitt sowohl Relevanzbeurteilungen, die entweder aus Trainingsdaten oder aus dem Relevance Feedback stammen können, als auch statistische Daten des entsprechenden Terms (wie die Dokumenthäufigkeit) ein.

Betrachtet man die Definitionen des Retrieval-Status-Werts des probabilistischen Modells und der Robertson-Sparck-Jones-Formel genauer, ergibt sich im Einzelnen: R(q,k)=rel_k , R(q)=rel , N-R(q)=nrel , d(k)-R(q,k) = nrel_k . Bis auf die Addition von 0,5 stimmen also die Robertson-Sparck-Jones-Formel und ein Summand im Retrieval-Status-Wert des probabilistischen Modells überein.

Wenn keine Relevanzdaten vorliegen, können R(q) und R(q,k) auf 0 gesetzt werden. Dann wird aus der Robertson-Sparck-Jones-Formel eine IDF-Formel:

v_k=log
(0,5) /(0,5)

( h(k)+0,5) /(N-h(k)+0,5)

=log
(N-h( k)+0,5)

( h(k)+0,5)

Die Gewichte können mit dem Skalarprodukt

s (w_i,q) =

{j | q_j=1}

v_j=
n

j=1

v_j·q_j

zwischen dem Dokumentvektor v und einem Query-Vektor q{0,1}ⁿ oder einem anderen Ähnlichkeitsmaß verwendet werden. Im Fall des Skalarprodukts ergibt sich damit im Wesentlichen der Retrieval-Status-Wert des probabilistischen Modells.

Wenn die Gewichte aufgrund eines größeren Trainingskorpus berechnet werden sollen, erfordert das einen höheren Speicher- bzw. Rechenaufwand, da zu jeder Anfrage der Wert R(q) und zu jedem Term-Anfrage-Paar der Wert R(q,k) gespeichert bzw. aus den Trainingsdaten oder dem Feedback ermittelt werden muss. Das Vorgehen ähnelt dem bei der "Dynamisierung des Dokumentenraums", wie es in Abschnitt 1.3.6.6 über das SMART-System beschrieben wurde. Allerdings werden bei der Robertson-Sparck-Jones-Formel im Allgemeinen die Gewichte nur in Bezug auf eine Anfrage, also auch nur in einer Sitzung verändert.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze -> Der probabilistische Retrieval-Ansatz

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

3.2.3

Die Robertson-Sparck-Jones-Formel

Trainingsmenge, Relevanz, Dokumenthäufigkeit, IDF, Skalarprodukt, Dokumentvektor, Query-Vektor

Dokumenthäufigkeit, Dokumentvektor, IDF, Query-Vektor, Relevanz, Skalarprodukt, Trainingsmenge

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.