![]() |
![]() |
![]() |
![]() |
Ein solches Verfahren wurde z. B. von Buckley, Salton, Allan und Singhal mit dem SMART Retrievalsystem für TREC 3 [->] verwendet. In einer einfachen Version wurden die Dokumentvektoren aufgrund von Termen und Termpaaren konstruiert. Die Terme wurde durch eine Stoppwortliste und eine lexikographische Stammformenreduktion bestimmt. Termpaare wurden zur Indexierung zugelassen, wenn sie in mindestens 25 Dokumenten der TREC 1 Sammlung vorkamen. Die Gewichtung der Terme in einer Anfrage wurde mit der Formel
Zur Veränderung des Anfragevektors wurde ein leicht modifiziertes Rocchioverfahren mit den 30 besten Antwortdokumenten verwendet (zumindest kann der Aufsatz so interpretiert werden): Alle Terme und Termpaare aus diesen Dokumenten wurden gemäß ihrer Häufigkeiten in diesen 30 Dokumenten sortiert. Dann wurden die 500 häufigsten Terme und die 10 häufigsten Termpaare ausgewählt. Die 30 Dokumentvektoren wurden auf diese Terme und Termpaare eingeschränkt und gemäß der Rocchioformel mit den Parametern (8,8,0) zum Anfragevektor addiert. Es wurden also der ursprüngliche Anfragevektor und das Mittel der auf die 510 Komponenten projezierten 30 Dokumentvektoren gleich gewichtet. Es wurden keine "nicht relevanten Dokumentvektoren" abgezogen.
In einem etwas komplizierteren Ansatz wurden nicht die vollständigen Dokumente verwendet um den Queryvektor zu verbessern, sondern es wurde versucht in den Dokumenten besonders relevante Passagen zu finden, mit denen der Qureyvektor optimiert werden kann. Dazu wurden die Dokumente in sich um 100 Wörter überlappende Blöcke oder "Fenster" von jeweils 200 Wörtern Länge zerlegt, aus denen dann Vektoren mit Einträgen aus {0,1} gebildet wurden, die nur angeben, ob ein Term oder ein Termpaar in dem entsprechenden Block auftritt (1) oder nicht (0). Als Ähnlichkeitsmaß wurde die Formel
Die konkrete Berechnung wurde in folgenden Schritten durchgeführt:
Die Ergebnisse der beiden Methoden wurden mit der "einfachen" Ähnlichkeit (siehe Abbildung _54_ ) und mit den anderen TREC 3 Ergebnissen (siehe Abbildung _55_ ) verglichen. Es zeigt sich, dass durch beide Verfahren Verbesserungen erreicht werden können, wobei die erste Methode mehr den Recall verbessert, während die zweite eher zu besseren Precisionwerten führt. Das ist nicht erstaunlich, da bei der ersten ja ganze Dokumente und damit eher thematisch breite Texteinheiten, bei der zweiten aber kleine und damit eher thematisch spezifische Texteinheiten für die Erweiterung der Anfrage verwendet wurden.
![]() |
![]() |
![]() |
![]() |