Die TREC-3-Ergebnisse von SMART [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Stichwörter dieser Seite	Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

3.4.1: Die TREC-3-Ergebnisse von SMART

Ein solches Verfahren wurde z.B. von Buckley, Salton, Allan und Singhal (1995) [->] mit dem SMART-Retrieval-System für TREC-3 verwendet. In einer einfachen Version wurden die Dokumentvektoren aufgrund von Termen und Termpaaren konstruiert. Die Terme wurde durch eine Stoppwortliste und eine lexikografische Stammformenreduktion bestimmt. Termpaare wurden zur Indexierung zugelassen, wenn sie in mindestens 25 Dokumenten der TREC-1 Sammlung vorkamen. Die Gewichtung der Terme in einer Anfrage wurde mit der Formel

(174)

w_i,k=

(ln (h(i,k))+ 1,0)·ln(m/d( k))

(

n

j=1

[ (ln (h (i,j) ) +1,0) ·ln (m/d (j)) ] ² )^1/2

berechnet, wobei h(i,k) die Häufigkeit des Terms t_k im Dokument bzw. der Anfrage i bezeichnet, m die Anzahl der Dokumente, n die Anzahl der Terme und d(k) die Anzahl der Dokumente, die den Term t_k enthalten. Für die Termpaare wurde die gleiche Formel verwendet, wobei im Nenner aber wieder nur über die Terme summiert wurde. Zur Berechnung der Gewichte in Dokumentvektoren wurde in der Formel der IDF-Faktor weggelassen. Als Ähnlichkeitsfunktion für die so normierten Vektoren wurde das Skalarprodukt verwendet, insgesamt also das Cosinus-Maß.

Zur Veränderung des Anfragevektors wurde ein leicht modifiziertes Rocchio-Verfahren mit den 30 besten Antwortdokumenten verwendet (zumindest kann der Aufsatz so interpretiert werden): Alle Terme und Termpaare aus diesen Dokumenten wurden gemäß ihrer Häufigkeiten in diesen 30 Dokumenten sortiert. Dann wurden die 500 häufigsten Terme und die 10 häufigsten Termpaare ausgewählt. Die 30 Dokumentvektoren wurden auf diese Terme und Termpaare eingeschränkt und gemäß der Rocchio-Formel mit den Parametern (8,8,0) zum Anfragevektor addiert. Es wurden also der ursprüngliche Anfragevektor und das Mittel der auf die 510 Komponenten projizierten 30 Dokumentvektoren gleich gewichtet. Es wurden keine "nicht relevanten Dokumentvektoren" abgezogen.

In einem etwas komplizierteren Ansatz wurden nicht die vollständigen Dokumente verwendet, um den Query-Vektor zu verbessern, sondern es wurde versucht, in den Dokumenten besonders relevante Passagen zu finden, mit denen der Query-Vektor optimiert werden kann. Dazu wurden die Dokumente in sich um 100 Wörter überlappende Blöcke oder "Fenster" von jeweils 200 Wörtern Länge zerlegt, aus denen dann Vektoren mit Einträgen aus {0,1} gebildet wurden, die nur angeben, ob ein Term oder ein Termpaar in dem entsprechenden Block auftritt (1) oder nicht (0). Als Ähnlichkeitsmaß wurde die Formel

s(w_i,q)=w_i·q(1+2

max

bB_d

(b·q)

max

bB_D

(b·q)

)

verwendet, wobei B_d die Menge der Vektoren bezeichnet, die aus den Blöcken des Dokuments dD gebildet werden. B_D gibt entsprechend die Menge aller Vektoren an, die aus allen Blöcken sämtlicher Dokumente einer Dokumentensammlung D gebildet werden können. Bei der praktischen Durchführung wurde dieses Maximum nur über die Teilmenge der Dokumente bestimmt, die in einem ersten Schritt für das Feedback ausgewählt wurden.

Die konkrete Berechnung wurde in folgenden Schritten durchgeführt:

In einer Ähnlichkeitssuche wurden die besten 1 750 Dokumente zu einer Anfrage q bestimmt.
Für jedes einzelne dieser Dokumente wurde
- die Menge B_d der Textblöcke erzeugt,
- zu jedem Textblock ein Vektor bB_d erzeugt,
- die Ähnlichkeit b_d·q dieses Vektors bB_d zur Anfrage q berechnet,
- das Maximum
  
  max
  
  bB_d
  
  (b·q)
  
  dieser Ähnlichkeitswerte über alle Blöcke ermittelt.
Über alle 1 750 Dokumente der Ergebnismenge D_q1750 wurde das Maximum der Maxima
max_{dD_q1750}{max _{bB_d}(b·q))=max_{bB_{D_q1750}} (b·q)
mit
B_D=

dD_q1750

B_d

berechnet.
Mit der Ähnlichkeitsfunktion s wurden die Ähnlichkeiten der 1 750 Dokumente zum Anfragevektor q berechnet.
Die Dokumente wurden nach diesen Ähnlichkeitswerten in eine Rangfolge gebracht und die besten 1 000 ausgegeben.

Abbildung 80: Ergebnisse der SMART-Verfahren in TREC 3

Abbildung 81: Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren

Die Ergebnisse der beiden Methoden wurden mit der "einfachen" Ähnlichkeit (siehe Abbildung 80 ) und mit den anderen TREC-3 Ergebnissen (siehe Abbildung 81 ) verglichen. Es zeigt sich, dass durch beide Verfahren Verbesserungen erreicht werden können, wobei die erste Methode mehr den Recall verbessert, während die zweite eher zu besseren Precision-Werten führt. Das ist nicht erstaunlich, da bei der ersten ja ganze Dokumente und damit eher thematisch breite Texteinheiten, bei der zweiten aber kleine und damit eher thematisch spezifische Texteinheiten für die Erweiterung der Anfrage verwendet wurden.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

3.4.1	Die TREC-3-Ergebnisse von SMART
Abb. 80	Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81	Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren

Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß

Ähnlichkeitsfunktion, Cosinus-Maß, IDF, Skalarprodukt, Stammformenreduktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.