Erfolgreiche TREC-Systeme [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze
Stichwörter dieser Seite	TREC, Passagen-Retrieval, Pseudo-Relevance-Feedback, Robertson-Sparck-Jones-Formel, Routing, Pseudo-Relevance-Feedback, Dokumentvektor, Rangfolge
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

3.4: Erfolgreiche TREC-Systeme

In diesem Abschnitt werden einige Systeme vorgestellt, die in den TREC-Experimenten gut abgeschnitten haben. Damit sollen neue Entwicklungen vorgestellt und gezeigt werden, welche Methoden sich in diesen Großexperimenten bewährt und durchgesetzt haben. Es soll aber auch ein kleiner Eindruck von der Komplexität der aktuellen Entwicklung vermittelt werden.

Bei den Experimenten hat sich gezeigt, dass in den ersten Durchgängen vor allem die Bewältigung der für damalige Verhältnisse sehr großen Datenmengen im Vordergrund stand. Die größten konzeptionellen Veränderungen der Systeme fanden in den Durchgängen TREC-3, TREC-4 und TREC-5 statt. Dabei wurde mit verschiedenen Ansätzen experimentiert, darunter vor allem die Suche nach und die Auswertung von Dokumentteilen (Passagen-Retrieval), das Pseudo-Relevance-Feedback und verschiedene Ähnlichkeitsmaße. Während die Versuche mit Passagen-Retrieval uneinheitliche Ergebnisse zeigten, haben sich Pseudo-Relevance-Feedback und die Robertson-Sparck-Jones-Formel (siehe Abschnitt 3.2.3 ) durchgesetzt und wurden schließlich von fast allen Systemen übernommen (siehe Voorhees und Harman, 1998 [->] ).

In den späteren Durchgängen haben sich die Ergebnisse bei den beiden Hauptaufgaben (Ad-hoc-Retrieval und Routing-Aufgabe) nicht mehr wesentlich verbessert, so dass sie nach TREC-8 nicht mehr angeboten wurden. Das Interesse konzentriert sich seitdem auf die verschiedenen Spezialaufgaben (Tracks), die seit TREC-5 eingeführt wurden. Sie werden am Ende des Kapitels kurz beschrieben.

Pseudo-Relevance-Feedback

In Abschnitt 1.3.6.4 war Relevance Feedback als eine Methode vorgestellt worden, mit der ein Anfragevektor in einem interaktiven Prozess dadurch verbessert werden kann, dass die Dokumentvektoren von solchen Dokumenten addiert werden, die von den Nutzenden als relevant eingeschätzt wurden. In den TREC-Experimenten wurde ein ganz ähnliches Verfahren auch bei einmaligen, nicht interaktiven Suchen eingesetzt. Dieses Pseudo-Relevance-Feedback geht davon aus, dass bei einem Vektorraumsystem, das eine Rangfolge von Ergebnisvektoren ausgibt, die Dokumente mit sehr guten Rangplätzen mit hoher Wahrscheinlichkeit relevant sind. Deshalb verwendet man die Vektoren dieser Dokumente (wie beim Relevance Feedback), um den Anfragevektor zu verändern.

Bei genauerer Betrachtung dieser Annahme sieht man, dass das Verfahren eine Verbesserung oder zumindest keine wesentlichen Verschlechterung der Ergebnisse verspricht, wenn zwei Bedingungen erfüllt sind: Es gibt viele relevante Dokumente und das untersuchte System ist einigermaßen gut. Ist eine der beiden Bedingungen nicht erfüllt, steigt die Wahrscheinlichkeit, dass sich an der Spitze der Rangfolge keine relevanten Dokumente befinden und damit der Anfragevektor verfälscht wird.

3.4.1: Die TREC-3-Ergebnisse von SMART

Die Daten von TREC-4 unterschieden sich von den TREC-3-Daten vor allem dadurch, dass die Topics - also die Anfragen oder Queries - wesentlich kürzer waren. Bei den teilnehmenden Systemen wurde vor allem an den Ähnlichkeitsmaßen gearbeitet. Die Verwendung von Textteilen zum Relevance Feedback, die in TREC-3 nicht nur SMART, sondern auch viele andere Systeme angewendet hatten, wurde verfeinert und den kürzeren Topics angepasst.

3.4.2: Die TREC-4-Ergebnisse von SMART

3.4.3: Ein Spreading-Activation-Modell

3.4.4: INQUERY in TREC-4

3.4.5: Das Okapi-System

3.4.6: Spezialaufgaben (TREC Tracks)

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

3.4	Erfolgreiche TREC-Systeme
3.4.1	Die TREC-3-Ergebnisse von SMART
Abb. 80	Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81	Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren
3.4.2	Die TREC-4-Ergebnisse von SMART
Abb. 82	Normierung des Einflusses der Dokumentlänge
Abb. 83	Vergleich der SMART-Ergebnisse in TREC-4 mit und ohne Expansion und neuer Normierung
Abb. 84	Ergebnisse der SMART-Verfahren in TREC-4
Abb. 85	Vergleich der SMART-Ergebnisse mit anderen TREC-4-Verfahren
3.4.3	Ein Spreading-Activation-Modell
Abb. 86	Das Netz des PIRCS-Systems
Abb. 87	Ergebnisse der PIRCS-Verfahren in TREC-4
Abb. 88	Vergleich der PIRCS-Verfahren mit anderen TREC-4-Systemen
3.4.4	INQUERY in TREC-4
Abb. 89	Ergebnisse mit INQUERY in TREC4
3.4.5	Das Okapi-System
Abb. 90	Ergebnisse mit Okapi in TREC-4
3.4.6	Spezialaufgaben (TREC Tracks)

TREC, Passagen-Retrieval, Pseudo-Relevance-Feedback, Robertson-Sparck-Jones-Formel, Routing, Pseudo-Relevance-Feedback, Dokumentvektor, Rangfolge, Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Relevanz, Termhäufigkeit, Expansion, Ähnlichkeitsfunktion, Individual-Term-Locality-Maß, ITL-Maß, Ähnlichkeitssuche, Attribut, Expansion, Expansion, assoziativer Thesaurus, Phrasen, Vektorraummodell, Ad-hoc-Aufgabe, Narrative, Gewichtungsmethode, Confusion, Merging, Filtering, Routing, Rangfolge, Interactive, Multilingual, NLP, Cross Language, Very Large Corpus, Web Track, Spoken Document Retrieval, Question Answering

Ad-hoc-Aufgabe, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitssuche, assoziativer Thesaurus, Attribut, Confusion, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Cross Language, Dokumentvektor, Expansion, Expansion, Expansion, Filtering, Gewichtungsmethode, IDF, Individual-Term-Locality-Maß, Interactive, ITL-Maß, Merging, Multilingual, Narrative, NLP, Passagen-Retrieval, Phrasen, Pseudo-Relevance-Feedback, Pseudo-Relevance-Feedback, Question Answering, Rangfolge, Rangfolge, Relevanz, Robertson-Sparck-Jones-Formel, Routing, Routing, Skalarprodukt, Spoken Document Retrieval, Stammformenreduktion, Termhäufigkeit, TREC, Vektorraummodell, Very Large Corpus, Web Track

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.