Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze
Stichwörter dieser Seite TREC, Passagen-Retrieval, Pseudo-Relevance-Feedback, Robertson-Sparck-Jones-Formel, Routing, Pseudo-Relevance-Feedback, Dokumentvektor, Rangfolge
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.4: Erfolgreiche TREC-Systeme

In diesem Abschnitt werden einige Systeme vorgestellt, die in den TREC-Experimenten gut abgeschnitten haben. Damit sollen neue Entwicklungen vorgestellt und gezeigt werden, welche Methoden sich in diesen Großexperimenten bewährt und durchgesetzt haben. Es soll aber auch ein kleiner Eindruck von der Komplexität der aktuellen Entwicklung vermittelt werden.

Bei den Experimenten hat sich gezeigt, dass in den ersten Durchgängen vor allem die Bewältigung der für damalige Verhältnisse sehr großen Datenmengen im Vordergrund stand. Die größten konzeptionellen Veränderungen der Systeme fanden in den Durchgängen TREC-3, TREC-4 und TREC-5 statt. Dabei wurde mit verschiedenen Ansätzen experimentiert, darunter vor allem die Suche nach und die Auswertung von Dokumentteilen (Passagen-Retrieval), das Pseudo-Relevance-Feedback und verschiedene Ähnlichkeitsmaße. Während die Versuche mit Passagen-Retrieval uneinheitliche Ergebnisse zeigten, haben sich Pseudo-Relevance-Feedback und die Robertson-Sparck-Jones-Formel (siehe Abschnitt 3.2.3 ) durchgesetzt und wurden schließlich von fast allen Systemen übernommen (siehe Voorhees und Harman, 1998 [->] ).

In den späteren Durchgängen haben sich die Ergebnisse bei den beiden Hauptaufgaben (Ad-hoc-Retrieval und Routing-Aufgabe) nicht mehr wesentlich verbessert, so dass sie nach TREC-8 nicht mehr angeboten wurden. Das Interesse konzentriert sich seitdem auf die verschiedenen Spezialaufgaben (Tracks), die seit TREC-5 eingeführt wurden. Sie werden am Ende des Kapitels kurz beschrieben.

Pseudo-Relevance-Feedback

In Abschnitt 1.3.6.4 war Relevance Feedback als eine Methode vorgestellt worden, mit der ein Anfragevektor in einem interaktiven Prozess dadurch verbessert werden kann, dass die Dokumentvektoren von solchen Dokumenten addiert werden, die von den Nutzenden als relevant eingeschätzt wurden. In den TREC-Experimenten wurde ein ganz ähnliches Verfahren auch bei einmaligen, nicht interaktiven Suchen eingesetzt. Dieses Pseudo-Relevance-Feedback geht davon aus, dass bei einem Vektorraumsystem, das eine Rangfolge von Ergebnisvektoren ausgibt, die Dokumente mit sehr guten Rangplätzen mit hoher Wahrscheinlichkeit relevant sind. Deshalb verwendet man die Vektoren dieser Dokumente (wie beim Relevance Feedback), um den Anfragevektor zu verändern.

Bei genauerer Betrachtung dieser Annahme sieht man, dass das Verfahren eine Verbesserung oder zumindest keine wesentlichen Verschlechterung der Ergebnisse verspricht, wenn zwei Bedingungen erfüllt sind: Es gibt viele relevante Dokumente und das untersuchte System ist einigermaßen gut. Ist eine der beiden Bedingungen nicht erfüllt, steigt die Wahrscheinlichkeit, dass sich an der Spitze der Rangfolge keine relevanten Dokumente befinden und damit der Anfragevektor verfälscht wird.

Pfeil als Kennzeichnung einer Unterueberschrift 3.4.1: Die TREC-3-Ergebnisse von SMART

Die Daten von TREC-4 unterschieden sich von den TREC-3-Daten vor allem dadurch, dass die Topics - also die Anfragen oder Queries - wesentlich kürzer waren. Bei den teilnehmenden Systemen wurde vor allem an den Ähnlichkeitsmaßen gearbeitet. Die Verwendung von Textteilen zum Relevance Feedback, die in TREC-3 nicht nur SMART, sondern auch viele andere Systeme angewendet hatten, wurde verfeinert und den kürzeren Topics angepasst.

Pfeil als Kennzeichnung einer Unterueberschrift 3.4.2: Die TREC-4-Ergebnisse von SMART

Pfeil als Kennzeichnung einer Unterueberschrift 3.4.3: Ein Spreading-Activation-Modell

Pfeil als Kennzeichnung einer Unterueberschrift 3.4.4: INQUERY in TREC-4

Pfeil als Kennzeichnung einer Unterueberschrift 3.4.5: Das Okapi-System

Pfeil als Kennzeichnung einer Unterueberschrift 3.4.6: Spezialaufgaben (TREC Tracks)

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.4Erfolgreiche TREC-Systeme
3.4.1Die TREC-3-Ergebnisse von SMART
Abb. 80 Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81 Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren
3.4.2Die TREC-4-Ergebnisse von SMART
Abb. 82 Normierung des Einflusses der Dokumentlänge
Abb. 83 Vergleich der SMART-Ergebnisse in TREC-4 mit und ohne Expansion und neuer Normierung
Abb. 84 Ergebnisse der SMART-Verfahren in TREC-4
Abb. 85 Vergleich der SMART-Ergebnisse mit anderen TREC-4-Verfahren
3.4.3Ein Spreading-Activation-Modell
Abb. 86 Das Netz des PIRCS-Systems
Abb. 87 Ergebnisse der PIRCS-Verfahren in TREC-4
Abb. 88 Vergleich der PIRCS-Verfahren mit anderen TREC-4-Systemen
3.4.4INQUERY in TREC-4
Abb. 89 Ergebnisse mit INQUERY in TREC4
3.4.5Das Okapi-System
Abb. 90 Ergebnisse mit Okapi in TREC-4
3.4.6Spezialaufgaben (TREC Tracks)
TREC, Passagen-Retrieval, Pseudo-Relevance-Feedback, Robertson-Sparck-Jones-Formel, Routing, Pseudo-Relevance-Feedback, Dokumentvektor, Rangfolge, Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Relevanz, Termhäufigkeit, Expansion, Ähnlichkeitsfunktion, Individual-Term-Locality-Maß, ITL-Maß, Ähnlichkeitssuche, Attribut, Expansion, Expansion, assoziativer Thesaurus, Phrasen, Vektorraummodell, Ad-hoc-Aufgabe, Narrative, Gewichtungsmethode, Confusion, Merging, Filtering, Routing, Rangfolge, Interactive, Multilingual, NLP, Cross Language, Very Large Corpus, Web Track, Spoken Document Retrieval, Question Answering Ad-hoc-Aufgabe, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitssuche, assoziativer Thesaurus, Attribut, Confusion, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Cross Language, Dokumentvektor, Expansion, Expansion, Expansion, Filtering, Gewichtungsmethode, IDF, Individual-Term-Locality-Maß, Interactive, ITL-Maß, Merging, Multilingual, Narrative, NLP, Passagen-Retrieval, Phrasen, Pseudo-Relevance-Feedback, Pseudo-Relevance-Feedback, Question Answering, Rangfolge, Rangfolge, Relevanz, Robertson-Sparck-Jones-Formel, Routing, Routing, Skalarprodukt, Spoken Document Retrieval, Stammformenreduktion, Termhäufigkeit, TREC, Vektorraummodell, Very Large Corpus, Web Track

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.