![]() |
![]() |
![]() |
![]() |
Im OKAPI Systems der City University of London (Robertson, Walker, Hancock-Beaulieu und Gatford TREC 3 [->]; Robertson, Walker, Beaulieu, Gatford und Payne TREC 4 [->]) wurde die Robertson-Sparck Jones Formel (siehe Abschnitt _4.2.3_ ) verwendet. Es unterscheidet sich daher von anderen Vektorraummodellen dadurch, dass Gewichte für Terme in Abhängigkiet von einer Anfrage berechnet werden:
In das
Ähnlichkeitsmaß zwischen einem
Dokumentvektor wi und einem Queryvektor q{0,1}n gehen die Gewichte
über das Skalarprodukt
Mit der Verwendung von Relevanzdaten und termstatistischen Daten für die Gewichte unterscheidet sich das Vorgehen bei Okapi z. B. von der in INQUERY gewählten Methode, bei der die Berechnung der Gewichte von der spezifischen Anfrage unabhängig ist. Man kann den Okapi Ansatz aber auch als Berechnung eine Anfragenetzes, wie es im Allgemeinen Modell eines Bayes'schen Netzwerktes beschrieben ist, auffassen.
Die Robertson - Spark Jones Formel bildet nur das Herzstück der in TREC 4 tatsächlich verwendeten Gewichts - bzw. Ähnlichkeitsformel. In diese gehen noch die Häufigkeit des Terms in der Anfrage, im Dokument und diverse Parameter, die von der Dokumentsammlung abhängen (z. B. die mittlere Dokumentlänge) bzw. für die jeweilige Sammlung optimiert werden können, ein.
Die Testdaten in TREC enthalten für die ad hoc Aufgabe neue Anfragen. D. h. aus den Trainingsdaten lassen sich für die Robertson - Spark Jones Formel keine Werte für R(q) und R(q,k) gewinnen. Sie wurden - wie bei den anderen Systemen - aus den besten Dokumenten nach einem ersten Anfragedurchgang ermittelt. Dazu wurden Terme, die nicht in der Ausgangsanfrage vorkamen, mit der Robertson - Spark Jones Formel gemäß der tatsächlichen Häufigkeiten gewichtet. Die Terme der Ausgangsfrage wurden stets so gewichtet, als ob sie in 19 von 20 Dokumenten aufgetreten wären.
Für das automatische Retrieval in TREC 4 wurde als Retrievalwert eines Dokuments eine Kombination aus dem Retrievalwert des ganzen Dokuments und dem Retrievalwert der besten Passage berechnet. Eine Passage wurde dabei als Folge von Absätzen definiert, wobei eine Minimal- und eine Maximalzahl von Absätzen festgelegt wurde. Die verwendeten Grenzwerte waren 1 und 20 bzw. 4 und 32. Offenbar wurden dabei lediglich Passagen am Beginn und Ende eines Dokuments berücksichtigt. Die Ergebnisse sind in Abbildung 4.5.5 dargestellt.
![]() |
![]() |
![]() |
![]() |