| ||||||||||||
3.4: Erfolgreiche TREC-SystemeIn diesem Abschnitt werden einige Systeme vorgestellt, die in den TREC-Experimenten gut abgeschnitten haben. Damit sollen neue Entwicklungen vorgestellt und gezeigt werden, welche Methoden sich in diesen Großexperimenten bewährt und durchgesetzt haben. Es soll aber auch ein kleiner Eindruck von der Komplexität der aktuellen Entwicklung vermittelt werden. Bei den Experimenten hat sich gezeigt, dass in den ersten Durchgängen vor allem die Bewältigung der für damalige Verhältnisse sehr großen Datenmengen im Vordergrund stand. Die größten konzeptionellen Veränderungen der Systeme fanden in den Durchgängen TREC-3, TREC-4 und TREC-5 statt. Dabei wurde mit verschiedenen Ansätzen experimentiert, darunter vor allem die Suche nach und die Auswertung von Dokumentteilen (Passagen-Retrieval), das Pseudo-Relevance-Feedback und verschiedene Ähnlichkeitsmaße. Während die Versuche mit Passagen-Retrieval uneinheitliche Ergebnisse zeigten, haben sich Pseudo-Relevance-Feedback und die Robertson-Sparck-Jones-Formel (siehe Abschnitt 3.2.3 ) durchgesetzt und wurden schließlich von fast allen Systemen übernommen (siehe Voorhees und Harman, 1998 [->] ). In den späteren Durchgängen haben sich die Ergebnisse bei den beiden Hauptaufgaben (Ad-hoc-Retrieval und Routing-Aufgabe) nicht mehr wesentlich verbessert, so dass sie nach TREC-8 nicht mehr angeboten wurden. Das Interesse konzentriert sich seitdem auf die verschiedenen Spezialaufgaben (Tracks), die seit TREC-5 eingeführt wurden. Sie werden am Ende des Kapitels kurz beschrieben. Pseudo-Relevance-FeedbackIn Abschnitt 1.3.6.4 war Relevance Feedback als eine Methode vorgestellt worden, mit der ein Anfragevektor in einem interaktiven Prozess dadurch verbessert werden kann, dass die Dokumentvektoren von solchen Dokumenten addiert werden, die von den Nutzenden als relevant eingeschätzt wurden. In den TREC-Experimenten wurde ein ganz ähnliches Verfahren auch bei einmaligen, nicht interaktiven Suchen eingesetzt. Dieses Pseudo-Relevance-Feedback geht davon aus, dass bei einem Vektorraumsystem, das eine Rangfolge von Ergebnisvektoren ausgibt, die Dokumente mit sehr guten Rangplätzen mit hoher Wahrscheinlichkeit relevant sind. Deshalb verwendet man die Vektoren dieser Dokumente (wie beim Relevance Feedback), um den Anfragevektor zu verändern. Bei genauerer Betrachtung dieser Annahme sieht man, dass das Verfahren eine Verbesserung oder zumindest keine wesentlichen Verschlechterung der Ergebnisse verspricht, wenn zwei Bedingungen erfüllt sind: Es gibt viele relevante Dokumente und das untersuchte System ist einigermaßen gut. Ist eine der beiden Bedingungen nicht erfüllt, steigt die Wahrscheinlichkeit, dass sich an der Spitze der Rangfolge keine relevanten Dokumente befinden und damit der Anfragevektor verfälscht wird. 3.4.1: Die TREC-3-Ergebnisse von SMARTDie Daten von TREC-4 unterschieden sich von den TREC-3-Daten vor allem dadurch, dass die Topics - also die Anfragen oder Queries - wesentlich kürzer waren. Bei den teilnehmenden Systemen wurde vor allem an den Ähnlichkeitsmaßen gearbeitet. Die Verwendung von Textteilen zum Relevance Feedback, die in TREC-3 nicht nur SMART, sondern auch viele andere Systeme angewendet hatten, wurde verfeinert und den kürzeren Topics angepasst. 3.4.2: Die TREC-4-Ergebnisse von SMART3.4.3: Ein Spreading-Activation-Modell3.4.4: INQUERY in TREC-43.4.5: Das Okapi-System3.4.6: Spezialaufgaben (TREC Tracks) | ||||||||||||
| ||||||||||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.