Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Stichwörter dieser Seite Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.4.1: Die TREC-3-Ergebnisse von SMART

Ein solches Verfahren wurde z.B. von Buckley, Salton, Allan und Singhal (1995) [->] mit dem SMART-Retrieval-System für TREC-3 verwendet. In einer einfachen Version wurden die Dokumentvektoren aufgrund von Termen und Termpaaren konstruiert. Die Terme wurde durch eine Stoppwortliste und eine lexikografische Stammformenreduktion bestimmt. Termpaare wurden zur Indexierung zugelassen, wenn sie in mindestens 25 Dokumenten der TREC-1 Sammlung vorkamen. Die Gewichtung der Terme in einer Anfrage wurde mit der Formel

(174)
wi,k=
(ln (h(i,k))+ 1,0)·ln(m/d( k))
Leere Abbildung mit der der Bruchstrich erzeugt wird
(
n
Mathematisches Zeichen: Summe
j=1
[ (ln (h (i,j) ) +1,0) ·ln (m/d (j)) ] 2 )1/2
berechnet, wobei h(i,k) die Häufigkeit des Terms tk im Dokument bzw. der Anfrage i bezeichnet, m die Anzahl der Dokumente, n die Anzahl der Terme und d(k) die Anzahl der Dokumente, die den Term tk enthalten. Für die Termpaare wurde die gleiche Formel verwendet, wobei im Nenner aber wieder nur über die Terme summiert wurde. Zur Berechnung der Gewichte in Dokumentvektoren wurde in der Formel der IDF-Faktor weggelassen. Als Ähnlichkeitsfunktion für die so normierten Vektoren wurde das Skalarprodukt verwendet, insgesamt also das Cosinus-Maß.

Zur Veränderung des Anfragevektors wurde ein leicht modifiziertes Rocchio-Verfahren mit den 30 besten Antwortdokumenten verwendet (zumindest kann der Aufsatz so interpretiert werden): Alle Terme und Termpaare aus diesen Dokumenten wurden gemäß ihrer Häufigkeiten in diesen 30 Dokumenten sortiert. Dann wurden die 500 häufigsten Terme und die 10 häufigsten Termpaare ausgewählt. Die 30 Dokumentvektoren wurden auf diese Terme und Termpaare eingeschränkt und gemäß der Rocchio-Formel mit den Parametern (8,8,0) zum Anfragevektor addiert. Es wurden also der ursprüngliche Anfragevektor und das Mittel der auf die 510 Komponenten projizierten 30 Dokumentvektoren gleich gewichtet. Es wurden keine "nicht relevanten Dokumentvektoren" abgezogen.

In einem etwas komplizierteren Ansatz wurden nicht die vollständigen Dokumente verwendet, um den Query-Vektor zu verbessern, sondern es wurde versucht, in den Dokumenten besonders relevante Passagen zu finden, mit denen der Query-Vektor optimiert werden kann. Dazu wurden die Dokumente in sich um 100 Wörter überlappende Blöcke oder "Fenster" von jeweils 200 Wörtern Länge zerlegt, aus denen dann Vektoren mit Einträgen aus {0,1} gebildet wurden, die nur angeben, ob ein Term oder ein Termpaar in dem entsprechenden Block auftritt (1) oder nicht (0). Als Ähnlichkeitsmaß wurde die Formel
s(wi,q)=w i·q(1+2
max
bMathematisches Zeichen: Element vonBd
(b·q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
max
bMathematisches Zeichen: Element vonBD
(b·q)
)
verwendet, wobei Bd die Menge der Vektoren bezeichnet, die aus den Blöcken des Dokuments dMathematisches Zeichen: Element vonD gebildet werden. BD gibt entsprechend die Menge aller Vektoren an, die aus allen Blöcken sämtlicher Dokumente einer Dokumentensammlung D gebildet werden können. Bei der praktischen Durchführung wurde dieses Maximum nur über die Teilmenge der Dokumente bestimmt, die in einem ersten Schritt für das Feedback ausgewählt wurden.

Die konkrete Berechnung wurde in folgenden Schritten durchgeführt:

  1. In einer Ähnlichkeitssuche wurden die besten 1 750 Dokumente zu einer Anfrage q bestimmt.
  2. Für jedes einzelne dieser Dokumente wurde
    • die Menge Bd der Textblöcke erzeugt,
    • zu jedem Textblock ein Vektor bMathematisches Zeichen: Element vonBd erzeugt,
    • die Ähnlichkeit bd·q dieses Vektors bMathematisches Zeichen: Element vonBd zur Anfrage q berechnet,
    • das Maximum
      max
      bMathematisches Zeichen: Element vonBd
      (b·q)
      dieser Ähnlichkeitswerte über alle Blöcke ermittelt.
  3. Über alle 1 750 Dokumente der Ergebnismenge Dq1750 wurde das Maximum der Maxima
    maxdMathematisches Zeichen: Element vonDq1750 {max bMathematisches Zeichen: Element vonBd(b·q))=maxbMathematisches Zeichen: Element vonBDq1750 (b·q)
    mit
    BD=
    Mathematisches Zeichen: grosses Vereinigungszeichen
    dMathematisches Zeichen: Element vonD q1750
    Bd
    berechnet.
  4. Mit der Ähnlichkeitsfunktion s wurden die Ähnlichkeiten der 1 750 Dokumente zum Anfragevektor q berechnet.
  5. Die Dokumente wurden nach diesen Ähnlichkeitswerten in eine Rangfolge gebracht und die besten 1 000 ausgegeben.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 80: Ergebnisse der SMART-Verfahren in TREC 3

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 81: Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren

Die Ergebnisse der beiden Methoden wurden mit der "einfachen" Ähnlichkeit (siehe Abbildung 80 ) und mit den anderen TREC-3 Ergebnissen (siehe Abbildung 81 ) verglichen. Es zeigt sich, dass durch beide Verfahren Verbesserungen erreicht werden können, wobei die erste Methode mehr den Recall verbessert, während die zweite eher zu besseren Precision-Werten führt. Das ist nicht erstaunlich, da bei der ersten ja ganze Dokumente und damit eher thematisch breite Texteinheiten, bei der zweiten aber kleine und damit eher thematisch spezifische Texteinheiten für die Erweiterung der Anfrage verwendet wurden.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.4.1Die TREC-3-Ergebnisse von SMART
Abb. 80 Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81 Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren
Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß Ähnlichkeitsfunktion, Cosinus-Maß, IDF, Skalarprodukt, Stammformenreduktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.