| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.2.3: Die Robertson-Sparck-Jones-FormelÄhnlich wie im vorigen Abschnitt entwickelt, wird bei der Robertson-Sparck-Jones-Formel (Robertson, Walker, Hancock-Beaulieu und Gatford, 1995 [->] ; Robertson, Walker, Beaulieu, Gatford und Payne, 1996 [->] ) vorgegangen. Mit ihr lassen sich Gewichte für Terme in Abhängigkeit von einer Anfrage berechnen. Als Gewicht für einen Term tk wird der Wert
In diese Formel gehen also wie beim probabilistischen Retrieval-Modell aus dem vorhergehenden Abschnitt sowohl Relevanzbeurteilungen, die entweder aus Trainingsdaten oder aus dem Relevance Feedback stammen können, als auch statistische Daten des entsprechenden Terms (wie die Dokumenthäufigkeit) ein. Betrachtet man die Definitionen des Retrieval-Status-Werts des probabilistischen Modells und der Robertson-Sparck-Jones-Formel genauer, ergibt sich im Einzelnen: R(q,k)=relk , R(q)=rel , N-R(q)=nrel , d(k)-R(q,k) = nrelk . Bis auf die Addition von 0,5 stimmen also die Robertson-Sparck-Jones-Formel und ein Summand im Retrieval-Status-Wert des probabilistischen Modells überein. Wenn keine Relevanzdaten vorliegen, können R(q) und R(q,k) auf 0 gesetzt werden. Dann wird aus der Robertson-Sparck-Jones-Formel eine IDF-Formel:
Die Gewichte können mit dem Skalarprodukt
![]() Wenn die Gewichte aufgrund eines größeren Trainingskorpus berechnet werden sollen, erfordert das einen höheren Speicher- bzw. Rechenaufwand, da zu jeder Anfrage der Wert R(q) und zu jedem Term-Anfrage-Paar der Wert R(q,k) gespeichert bzw. aus den Trainingsdaten oder dem Feedback ermittelt werden muss. Das Vorgehen ähnelt dem bei der "Dynamisierung des Dokumentenraums", wie es in Abschnitt 1.3.6.6 über das SMART-System beschrieben wurde. Allerdings werden bei der Robertson-Sparck-Jones-Formel im Allgemeinen die Gewichte nur in Bezug auf eine Anfrage, also auch nur in einer Sitzung verändert. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.