Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Stichwörter dieser Seite Vektorraummodell, Ad-hoc-Aufgabe
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.4.5: Das Okapi-System

Im Okapi-System der City University of London (Robertson, Walker, Hancock-Beaulieu und Gatford, 1995 [->] ; Robertson, Walker, Beaulieu, Gatford und Payne, 1996 [->] ) wurde die Robertson-Sparck-Jones-Formel (siehe Abschnitt 3.2.3 ) verwendet. Es unterscheidet sich daher von anderen Vektorraummodellen dadurch, dass Gewichte für Terme in Abhängigkeit von einer Anfrage berechnet werden:
vk=ln
(R( q,k)+0,5)/( R(q)-R(q,k) +0,5)
Leere Abbildung mit der der Bruchstrich erzeugt wird
(d( k)-R(q,k) +0,5)/(N-d(k) -R(q)+R(q,k) +0,5)
wobei N die Anzahl der Dokumente in der Sammlung bezeichnet, R(q) die Anzahl der zur Anfrage q relevanten Dokumente in der Trainingsmenge, d(k) die Anzahl der Dokumente, die den Term tk enthalten, und R(q,k) die Anzahl der relevanten Dokumente, die den Term tk enthalten. In das Ähnlichkeitsmaß zwischen einem Dokumentvektor wi und einem Query-Vektor qMathematisches Zeichen: Element von{0,1}n gehen die Gewichte über das Skalarprodukt
s (wi,q) =
Mathematisches Zeichen: Summe
{j | qj=1}
wi,j=
n
Mathematisches Zeichen: Summe
j=1
wi,j·qj=
n
Mathematisches Zeichen: Summe
j=1
h (i,j) ·v j·qj
ein, wobei wi,j=vj·h(i,j) gesetzt wird und h(i,j) wieder die Häufigkeit des Terms tj im Dokument di bezeichnet.

Mit der Verwendung von Relevanzdaten und termstatistischen Daten für die Gewichte unterscheidet sich das Vorgehen bei Okapi z.B. von der in INQUERY gewählten Methode, bei der die Berechnung der Gewichte von der spezifischen Anfrage unabhängig ist. Man kann den Okapi-Ansatz aber auch als Berechnung eines Anfragenetzes, wie es im Allgemeinen Modell eines bayesschen Netzwerks beschrieben ist, auffassen.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 90: Ergebnisse mit Okapi in TREC-4

Die Robertson-Sparck-Jones-Formel bildet nur das Herzstück der in TREC-4 tatsächlich verwendeten Gewichts- bzw. Ähnlichkeitsformel. In sie gehen auch die Häufigkeiten des Terms in Dokument und Anfrage und diverse andere Parameter der Dokumentensammlung ein (z.B. die mittlere Dokumentlänge). Weitere Parameter der Formel können für die jeweilige Sammlung optimiert werden.

Die Testdaten in TREC enthalten für die Ad-hoc-Aufgabe neue Anfragen. Das heißt, aus den Trainingsdaten lassen sich für die Robertson-Sparck-Jones-Formel keine Werte für R(q) und R(q,k) gewinnen. Sie wurden - wie bei den anderen Systemen - aus den besten Dokumenten nach einem ersten Anfragedurchgang ermittelt. Dazu wurden Terme, die nicht in der Ausgangsanfrage vorkamen, mit der Robertson-Sparck-Jones-Formel gemäß der tatsächlichen Häufigkeiten gewichtet. Die Terme der Ausgangsanfrage wurden stets so gewichtet, als ob sie in 19 von 20 Dokumenten aufgetreten wären.

Für das automatische Retrieval in TREC-4 wurde als Retrieval-Wert eines Dokuments eine Kombination aus dem Retrieval-Wert des ganzen Dokuments und dem Retrieval-Wert der besten Passage berechnet. Eine Passage wurde dabei als Folge von Absätzen definiert, wobei eine Minimal- und eine Maximalzahl von Absätzen festgelegt wurde. Die verwendeten Grenzwerte waren 1 und 20 bzw. 4 und 32. Offenbar wurden dabei lediglich Passagen am Beginn und Ende eines Dokuments berücksichtigt. Die Ergebnisse sind in Abbildung 90 dargestellt.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.4.5Das Okapi-System
Abb. 90 Ergebnisse mit Okapi in TREC-4
Vektorraummodell, Ad-hoc-Aufgabe Ad-hoc-Aufgabe, Vektorraummodell

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.