| |||||||||||||
3.4.4: INQUERY in TREC-4Auch das in Abschnitt 3.3.2 beschriebene System INQUERY hat an TREC-4 teilgenommen und gut abgeschnitten. Es wurde zusammen mit einem Phrasenthesaurus und Passagen-Retrieval eingesetzt. Der Phrasenthesaurus "InFinder" ist ein korpusbasierter assoziativer Thesaurus, der aus ca. 30% der Trainingsdokumente automatisch erzeugt wurde. Dazu wurden mit einer schwachen syntaktischen Analyse Folgen von einem, zwei oder drei aufeinander folgenden Hauptwörtern (Phrasen) bestimmt und zu Paaren mit den (auf Stammformen reduzierten) Wörtern verbunden, die in einem bestimmten Abstand (vermutlich zwischen drei und zehn Sätzen) vorkamen. Dabei wurden nur solche Wortfolgen verwendet, die zwischen 16- und 3 000-mal vorkamen. Wörter, die häufiger als 20 000-mal zusammen mit einer Wortfolge vorkamen, wurden ebenfalls nicht verwendet. Wortfolgen, die aus drei Hauptwörtern bestanden, wurden in zwei Wortpaare aufgespaltet. Aufgrund der Häufigkeit, mit der Paare in dieser Sammlung vorkommen, kann zu den Termen einer Anfrage eine Rangfolge der Phrasen bestimmt werden. Die Phrasen, die an der Spitze der Rangfolge stehen, können als Erweiterung zu der Anfrage hinzugefügt werden. Zur Berechnung des Retrieval-Werts eines Dokuments für die Ad-hoc-Ergebnisse für TREC-4 wurden aus den Topics die Stoppworte entfernt und die zulässigen Phrasen erzeugt. Weiter wurden Länder- und Firmennamen gesondert behandelt. Die Phrasen wurden dabei im Anfragevektor unterschiedlich gewichtet, je nachdem, ob alle darin vorkommenden Wörter auch in der Anfrage auftraten oder ob neue Wörter, die nicht Teil der Anfrage waren, in der Phrase auftraten. Mit dem so erzeugten Anfragevektor wurden für jedes Dokument sowohl für das Gesamtdokument als auch für überlappende Fenster einer festen Länge Retrieval-Werte berechnet. Zusätzlich zu diesen beiden Retrieval-Werten wurde die Anfrage mit dem assoziativen Phrasenthesaurus um 30 Phrasen erweitert. Mit dieser erweiterten Anfrage wurde noch ein Retrieval-Wert für das Gesamtdokument berechnet. Aus diesen drei Retrieval-Werten wurden verschiedene Gesamtwerte für das Dokument in Bezug auf die Anfrage gebildet, deren Rangfolgen miteinander verglichen werden konnten. Für das "offizielle" TREC-4-Ergebnis wurden alle drei Retrieval-Werte gewichtet addiert. Welche Ähnlichkeitsformel verwendet wurde, geht aus dem TREC-4-Bericht leider nicht hervor. Die Gewichte der Terme bzw. Phrasen im Dokumentvektor wurden mit einer Formel der Form:
Abbildung 89: Ergebnisse mit INQUERY in TREC4Untersucht man den Einfluss der einzelnen Komponenten auf das Ergebnis, so zeigt sich, dass die Verwendung des Phrasenthesaurus nur eine geringe Verbesserung (3,5%) brachte. Das Passagen-Retrieval (die Berechnung des Retrieval-Werts mit überlappenden Fenstern) hatte sogar einen negativen Effekt (von 1,6%) auf das Gesamtergebnis. | |||||||||||||
| |||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.