R. Ferber: Data Mining & Information Retrieval 1.6.2.3

5.2.3: Die Robertson - Spark Jones Formel

Ähnlich wie im vorigen Abschnitt entwickelt, wird bei der Robertson-Sparck Jones Formel (Robertson, Walker, Hancock-Beaulieu & Gatford TREC 3 [->]; Robertson, Walker, Beaulieu, Gatford & Payne TREC 4 [->]) vorgegangen, mit der Gewichte für Terme in Abhängigkiet von einer Anfrage berechnet werden können. Als Gewicht für einen Term t_k wird der Wert

berechnet, wobei N die Anzahl der Dokumente in der Sammlung bezeichnet, R(q) die Anzahl der zur Anfrage q relevanten Dokumente im Trainingsset (es gilt also R(q)=r^-1_q({1}) im Sinne der Definition der Relevanz aus Abschnitt _3.5.2_ ), d(k) die Anzahl der Dokumente, die den Term t_k enthalten und R(q,k) die Anzahl der relevanten Dokumente, die den Term t_k enthalten. Im Zähler steht das Verhältnis der Anzahl der relevanten Dokumente, die den Term t_k enthalten zur Anzahl der relevanten Dokumente, die den Term nicht enthalten (Die Addition von 0.5 verbessert die Schätzung und sorgt dafür, dass nicht durch 0 dividiert wird). Im Nenner steht das Verhältnis der Anzahl der Dokumente, die den Term enthalten und nicht relevant sind zur Anzahl derer, die den Term nicht enthalten und nicht relevant sind.

In diese Formel gehen also wie beim probabilistischen Retrieval Modell aus dem vorhergehenden Abschnitt sowohl Relevanzbeurteilungen, die entweder aus Trainingsdaten oder aus dem Relevance Feedback stammen können, als auch statistische Daten des entsprechenden Terms (wie die Dokumenthäufigkeit) ein.

Betrachtet man die Definition des Retrievalstatuswert des probabilistischen Modells und der Robertson Spark-Jones Formel genauer, ergibt sich im Einzelnen: R(q,k)=rel_k , R(q)=rel , N-R(q)=nrel , d(k)-R(q,k)=nrel_k . Bis auf die Addition von 0.5 stimmen also die Robertson Spark-Jones Formel und ein Summand im Retrievalstatuswert des probabilistischen Modells überein.

Wenn keine Relevanzdaten vorliegen, können R(q) und R(q,k) auf Null gesetzt werden. Dann wird aus der Robertson - Spark Jones Formel eine IDF Formel:

Die Gewichte können mit dem Skalarprodukt

s(w_i,q)=_{_{{j | q_j=1}}}v_j=_{_j=1}^ⁿv_j·q_j

zwischen dem Dokumentvektor v und einem Queryvektor q{0,1}ⁿ oder einem anderen Ähnlichkeitsmaß verwendet werden. Im Fall des Skalarprodukts ergibt sich damit im Wesentlichen der Retrievalstatuswert des probabilistischen Modells.

Wenn die Gewichte aufgrund eines größeren Trainingskorpus berechnet werden sollen, erfordert das einen höheren Speicher - bzw. Rechenaufwand, da zu jeder Anfrage der Wert R(q) und zu jedem Term-Anfrage Paar der Wert R(q,k) gespeichert bzw. aus den Trainingsdaten oder dem Feedback ermittelt werden muss. Das Vorgehen ähnelt dem bei der "Dynamisierung des Dokumentraumes" wie es im Abschnitt _3.4.6_ über das SMART System beschrieben wurde. Allerdings werden bei der Robertson - Spark Jones Formel im Allgemeinen die Gewichte nur im Bezug auf eine Anfrage, also auch nur in einer Sitzung verändert.