ZURÜCK

4.5.4: INQUERY in TREC 4

Auch das in Abschnitt _4.3.2_ beschriebene System INQUERY hat an TREC 4 teilgenommen und gut abgeschnitten. Es wurde zusammen mit einem Phrasenthesaurus und Passagen Retrieval eingesetzt. Der Phrasen Thesaurus "InFinder" ist ein korpusbasierter automatisch erzeugter assoziativer Thesaurus, der aus ca. 30% der Trainingsdokumente erzeugt wurde. Dazu wurde mit einer schwachen syntaktischen Analyse Folgen von einem, zwei oder drei aufeinanderfolgenden Hauptwörtern ( Phrasen) bestimmt und zu Paaren mit den (gestemmten) Wörtern verbunden, die in einem bestimmten Abstand (vermutlich zwischen 3 und 10 Sätzen) vorkamen. Dabei wurden nur solche Wortfolgen verwendet, die zwischen 16 und 3000 mal vorkamen. Wörter, die häufiger als 20 000 mal zusammen mit einer Wortfolge vorkamen wurden ebenfalls nicht verwendet. Wortfolgen, die aus drei Hauptwörtern bestanden wurde in zwei Wortpaare aufgespalten. Aufgrund der Häufigkeit, mit der Paare in dieser Sammlung vorkommen, kann zu den Termen einer Anfrage eine Rangfolge der Phrasen bestimmt werden. Die Phrasen, die an der Spitze der Rangfolge stehen, können als Erweiterung zu der Anfrage hinzugefügt werden.

Zur Berechnung des Retreivalwertes eines Dokuments für die Ad Hoc Ergebnisse für TREC 4 wurden also aus den Topics die Stoppworte entfernt und die zulässigen Phrasen erzeugt. Weiter wurden Länder- und Firmennamen gesondert behandelt. Die Phrasen wurden dabei im Anfragevektor unterschiedlich gewichtet, jenachdem, ob alle darin vorkommenden Wörter auch in der Anfrage auftraten oder ob neue Wörter, die nicht Teil der Anfrage waren, in der Phrase auftraten. Mit dem so erzeugten Anfragevektor wurden für jedes Dokument sowohl für das Gesamtdokumente als auch für überlappende Fenster einer festen Länge (Passagen Retrieval) Retrievalwerte berechnet. Zusätzlich zu diesen beiden Retrievalwerten wurde die Anfrage mit dem assoziativen Phrasenthesaurus um 30 Phrasen erweitert. Mit dieser erweiterten Anfrage wurde noch ein Retrievalwert für das Gesamtdokument berechnet. Aus diesen drei Retrievalwerten wurden verschiedene Gesamtretrievalwerte für das Dokument im Bezug auf die Anfrage gebildet, deren Rangfolgen miteinander verglichen werden konnten. Für das "offizielle" TREC 4 Ergebnis wurden alle drei Retrievalwerte gewichtet addiert. Welche Ähnlichkeitsformel verwendet wurde, geht aus dem TREC 4 Bericht leider nicht hervor.

Die Gewichte der Terme bzw. Phrasen im Dokumentvektor wurden mit einer Formel der Form:

wi,k=0.4+0.6·ntf(i,k)·idf(k)

berechnet, wobei

idf(k)=(ln(N+0.5)-ln(d(k)))/ln(N+1.0)

gilt ( N bezichnet die Anzahl der Dokument in der Sammlung d(k) die Anzahl der Dokumente, in denen der Term k auftritt) und in ntf(i,k) die Termhäufigkeit im Dokument, die maximale Häufigkeit eines Terms im Dokument, die mittlere Dokumentlänge, idf(k) und noch einige weitere Parameter eingehen.

Allan, Ballesteros, Callan, Croft und Lu (TREC 4 [->]) erziehlten die in Abbildung 62 dargestellten Ergebnisse:

ZUGANGAbb. 62: Ergebnisse mit INQUERY in TREC 4

Untersucht man die einzelnen Komponenten der Retreivalwerte, so zeigt sich, dass die Verwendung des Phrasenthesaurus nur eine geringe Verbesserung (3.5%) brachte. Das Passagen Retrieval (also die Berechnung des Retrievalwertes mit überlappenden Fenstern) hatte sogar einen negativen Effekt (von 1.6%) auf das Gesamtergebnis.


ZURÜCK

© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber