| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.4.1: Die TREC-3-Ergebnisse von SMARTEin solches Verfahren wurde z.B. von Buckley, Salton, Allan und Singhal (1995) [->] mit dem SMART-Retrieval-System für TREC-3 verwendet. In einer einfachen Version wurden die Dokumentvektoren aufgrund von Termen und Termpaaren konstruiert. Die Terme wurde durch eine Stoppwortliste und eine lexikografische Stammformenreduktion bestimmt. Termpaare wurden zur Indexierung zugelassen, wenn sie in mindestens 25 Dokumenten der TREC-1 Sammlung vorkamen. Die Gewichtung der Terme in einer Anfrage wurde mit der Formel
Zur Veränderung des Anfragevektors wurde ein leicht modifiziertes Rocchio-Verfahren mit den 30 besten Antwortdokumenten verwendet (zumindest kann der Aufsatz so interpretiert werden): Alle Terme und Termpaare aus diesen Dokumenten wurden gemäß ihrer Häufigkeiten in diesen 30 Dokumenten sortiert. Dann wurden die 500 häufigsten Terme und die 10 häufigsten Termpaare ausgewählt. Die 30 Dokumentvektoren wurden auf diese Terme und Termpaare eingeschränkt und gemäß der Rocchio-Formel mit den Parametern (8,8,0) zum Anfragevektor addiert. Es wurden also der ursprüngliche Anfragevektor und das Mittel der auf die 510 Komponenten projizierten 30 Dokumentvektoren gleich gewichtet. Es wurden keine "nicht relevanten Dokumentvektoren" abgezogen. In einem etwas komplizierteren Ansatz wurden nicht die vollständigen Dokumente verwendet, um den Query-Vektor zu verbessern, sondern es wurde versucht, in den Dokumenten besonders relevante Passagen zu finden, mit denen der Query-Vektor optimiert werden kann. Dazu wurden die Dokumente in sich um 100 Wörter überlappende Blöcke oder "Fenster" von jeweils 200 Wörtern Länge zerlegt, aus denen dann Vektoren mit Einträgen aus {0,1} gebildet wurden, die nur angeben, ob ein Term oder ein Termpaar in dem entsprechenden Block auftritt (1) oder nicht (0). Als Ähnlichkeitsmaß wurde die Formel
Die konkrete Berechnung wurde in folgenden Schritten durchgeführt:
Abbildung 80: Ergebnisse der SMART-Verfahren in TREC 3Abbildung 81: Vergleich der SMART-Verfahren in TREC 3 mit anderen VerfahrenDie Ergebnisse der beiden Methoden wurden mit der "einfachen" Ähnlichkeit (siehe Abbildung 80 ) und mit den anderen TREC-3 Ergebnissen (siehe Abbildung 81 ) verglichen. Es zeigt sich, dass durch beide Verfahren Verbesserungen erreicht werden können, wobei die erste Methode mehr den Recall verbessert, während die zweite eher zu besseren Precision-Werten führt. Das ist nicht erstaunlich, da bei der ersten ja ganze Dokumente und damit eher thematisch breite Texteinheiten, bei der zweiten aber kleine und damit eher thematisch spezifische Texteinheiten für die Erweiterung der Anfrage verwendet wurden. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.