ZURÜCK

4.5.1: Die TREC 3 Ergebnisse von SMART

Ein solches Verfahren wurde z. B. von Buckley, Salton, Allan und Singhal mit dem SMART Retrievalsystem für TREC 3 [->] verwendet. In einer einfachen Version wurden die Dokumentvektoren aufgrund von Termen und Termpaaren konstruiert. Die Terme wurde durch eine Stoppwortliste und eine lexikographische Stammformenreduktion bestimmt. Termpaare wurden zur Indexierung zugelassen, wenn sie in mindestens 25 Dokumenten der TREC 1 Sammlung vorkamen. Die Gewichtung der Terme in einer Anfrage wurde mit der Formel

berechnet, wobei h(i,k) die Häufigkeit des Terms tk im Dokument bzw. der Anfrage i bezeichnet, m die Anzahl der Dokumente, n die Anzahl der Terme und d(k) die Anzahl der Dokumente, die den Term tk enthalten. Für die Termpaare wurde die gleiche Formel verwendet, wobei im Nenner aber wieder nur über die Terme summiert wurde. Zur Berechnung der Gewichte in Dokumentvektoren wurde in der Formel der IDF Faktor weggelassen. Als Ähnlichkeitsfunktion für die so normierten Vektoren wurde das Skalarprodukt verwendet, insgesamt also das Kosinusmaß.

Zur Veränderung des Anfragevektors wurde ein leicht modifiziertes Rocchioverfahren mit den 30 besten Antwortdokumenten verwendet (zumindest kann der Aufsatz so interpretiert werden): Alle Terme und Termpaare aus diesen Dokumenten wurden gemäß ihrer Häufigkeiten in diesen 30 Dokumenten sortiert. Dann wurden die 500 häufigsten Terme und die 10 häufigsten Termpaare ausgewählt. Die 30 Dokumentvektoren wurden auf diese Terme und Termpaare eingeschränkt und gemäß der Rocchioformel mit den Parametern (8,8,0) zum Anfragevektor addiert. Es wurden also der ursprüngliche Anfragevektor und das Mittel der auf die 510 Komponenten projezierten 30 Dokumentvektoren gleich gewichtet. Es wurden keine "nicht relevanten Dokumentvektoren" abgezogen.

In einem etwas komplizierteren Ansatz wurden nicht die vollständigen Dokumente verwendet um den Queryvektor zu verbessern, sondern es wurde versucht in den Dokumenten besonders relevante Passagen zu finden, mit denen der Qureyvektor optimiert werden kann. Dazu wurden die Dokumente in sich um 100 Wörter überlappende Blöcke oder "Fenster" von jeweils 200 Wörtern Länge zerlegt, aus denen dann Vektoren mit Einträgen aus {0,1} gebildet wurden, die nur angeben, ob ein Term oder ein Termpaar in dem entsprechenden Block auftritt (1) oder nicht (0). Als Ähnlichkeitsmaß wurde die Formel

verwendet, wobei Bd die Menge der Vektoren bezeichnet, die aus den Blöcken des Dokuments dD gebildet werden. BD gibt entsprechend die Menge aller Vektoren an, die aus allen Blöcken aus allen Dokumenten einer Dokumentensammlung D gebildet werden können. Bei der praktischen Durchführung wurde dieses Maximum nur über die Teilmenge der Dokumente bestimmt, die in einem ersten Schritt für das Feedback ausgewählt wurden.

Die konkrete Berechnung wurde in folgenden Schritten durchgeführt:

  1. In einer Ähnlichkeitsuche wurden die besten 1750 Dokumente zu einer Anfrage q bestimmt.
  2. Für jedes einzelne der gefundenen Dokumente wurden
  3. Über alle 1750 Dokumente der Ergebnismenge Dq1750 wurde das Maximum der Maxima maxdDq1750{maxbBd(b·q)}=maxbBDq1750(b·q) mit BD=dDq1750Bd berechnet.
  4. Mit der Ähnlichkeitsfunktion s wurden die Ähnlichkeiten der 1750 Dokumente zum Anfragevektor q berechnet.
  5. Die Dokumente wurden nach diesen Ähnlichkeitswerten in eine Rangfolge gebracht und die besten 1000 ausgegeben.

ZUGANGAbb. 54: Die SMART Verfahren aus TREC 3

ZUGANGAbb. 55: Die SMART Verfahren in TREC 3

Die Ergebnisse der beiden Methoden wurden mit der "einfachen" Ähnlichkeit (siehe Abbildung _54_ ) und mit den anderen TREC 3 Ergebnissen (siehe Abbildung _55_ ) verglichen. Es zeigt sich, dass durch beide Verfahren Verbesserungen erreicht werden können, wobei die erste Methode mehr den Recall verbessert, während die zweite eher zu besseren Precisionwerten führt. Das ist nicht erstaunlich, da bei der ersten ja ganze Dokumente und damit eher thematisch breite Texteinheiten, bei der zweiten aber kleine und damit eher thematisch spezifische Texteinheiten für die Erweiterung der Anfrage verwendet wurden.


ZURÜCK

© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber