Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Stichwörter dieser Seite assoziativer Thesaurus, Phrasen
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.4.4: INQUERY in TREC-4

Auch das in Abschnitt 3.3.2 beschriebene System INQUERY hat an TREC-4 teilgenommen und gut abgeschnitten. Es wurde zusammen mit einem Phrasenthesaurus und Passagen-Retrieval eingesetzt. Der Phrasenthesaurus "InFinder" ist ein korpusbasierter assoziativer Thesaurus, der aus ca. 30% der Trainingsdokumente automatisch erzeugt wurde.

Dazu wurden mit einer schwachen syntaktischen Analyse Folgen von einem, zwei oder drei aufeinander folgenden Hauptwörtern (Phrasen) bestimmt und zu Paaren mit den (auf Stammformen reduzierten) Wörtern verbunden, die in einem bestimmten Abstand (vermutlich zwischen drei und zehn Sätzen) vorkamen. Dabei wurden nur solche Wortfolgen verwendet, die zwischen 16- und 3 000-mal vorkamen. Wörter, die häufiger als 20 000-mal zusammen mit einer Wortfolge vorkamen, wurden ebenfalls nicht verwendet. Wortfolgen, die aus drei Hauptwörtern bestanden, wurden in zwei Wortpaare aufgespaltet. Aufgrund der Häufigkeit, mit der Paare in dieser Sammlung vorkommen, kann zu den Termen einer Anfrage eine Rangfolge der Phrasen bestimmt werden. Die Phrasen, die an der Spitze der Rangfolge stehen, können als Erweiterung zu der Anfrage hinzugefügt werden.

Zur Berechnung des Retrieval-Werts eines Dokuments für die Ad-hoc-Ergebnisse für TREC-4 wurden aus den Topics die Stoppworte entfernt und die zulässigen Phrasen erzeugt. Weiter wurden Länder- und Firmennamen gesondert behandelt. Die Phrasen wurden dabei im Anfragevektor unterschiedlich gewichtet, je nachdem, ob alle darin vorkommenden Wörter auch in der Anfrage auftraten oder ob neue Wörter, die nicht Teil der Anfrage waren, in der Phrase auftraten. Mit dem so erzeugten Anfragevektor wurden für jedes Dokument sowohl für das Gesamtdokument als auch für überlappende Fenster einer festen Länge Retrieval-Werte berechnet. Zusätzlich zu diesen beiden Retrieval-Werten wurde die Anfrage mit dem assoziativen Phrasenthesaurus um 30 Phrasen erweitert. Mit dieser erweiterten Anfrage wurde noch ein Retrieval-Wert für das Gesamtdokument berechnet. Aus diesen drei Retrieval-Werten wurden verschiedene Gesamtwerte für das Dokument in Bezug auf die Anfrage gebildet, deren Rangfolgen miteinander verglichen werden konnten. Für das "offizielle" TREC-4-Ergebnis wurden alle drei Retrieval-Werte gewichtet addiert. Welche Ähnlichkeitsformel verwendet wurde, geht aus dem TREC-4-Bericht leider nicht hervor.

Die Gewichte der Terme bzw. Phrasen im Dokumentvektor wurden mit einer Formel der Form:
wi,k = 0,4 + 0,6 · ntf(i,k) · idf(k)
berechnet, wobei
idf(k)=(ln ( N + 0,5 ) - ln( d( k ))) / ln( N + 1,0 )
gilt ( N bezeichnet die Anzahl der Dokumente in der Sammlung, d(k) die Anzahl der Dokumente, in denen der Term k auftritt). In ntf(i,k) gehen die Termhäufigkeit im Dokument, die maximale Häufigkeit eines Terms im Dokument, die mittlere Dokumentlänge, idf(k) und noch weitere Parameter ein. Allan, Ballesteros, Callan, Croft und Lu (1996) [->] erzielten die in Abbildung 89 dargestellten Ergebnisse.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 89: Ergebnisse mit INQUERY in TREC4

Untersucht man den Einfluss der einzelnen Komponenten auf das Ergebnis, so zeigt sich, dass die Verwendung des Phrasenthesaurus nur eine geringe Verbesserung (3,5%) brachte. Das Passagen-Retrieval (die Berechnung des Retrieval-Werts mit überlappenden Fenstern) hatte sogar einen negativen Effekt (von 1,6%) auf das Gesamtergebnis.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.4.4INQUERY in TREC-4
Abb. 89 Ergebnisse mit INQUERY in TREC4
assoziativer Thesaurus, Phrasen assoziativer Thesaurus, Phrasen

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.