R. Ferber: Informationssysteme 1.5.5.6

4.5.6: Schwerpunkte von TREC 5

Nachdem in den letzten Abschnitten die Techniken, die in TREC 4 verwendet wurden ausführlicher vorgestellt wurden, sollen im folgenden einige Entwicklungen aus TREC 5 vorgestellt werden. Die Darstellung orientiert sich dabei im Wesentlichen an Voorhees und Harman (www [->]).

Zunächst wurde im Anschluss an TREC 4 die Poolingmethode noch einmal empirisch überprüft. Dazu wurden für alle 49 TREC 4 Topics, zu denen relvante Dokumente gefunden worden waren, jeweils zufällig 200 relevante Dokumente (bzw. alle relevanten, wenn das weniger als 200 waren) und 200 als nicht relevant eingeschätze Dokumente ausgewählt. Die so bestimmten 14 968 Dokumente wurde durch zwei weitere Beurteilende auf ihre Relevanz zu den Topics eingeschätzt. Dabei ergaben sich folgende Ergebnisse: 1992 (13.3%) wurden von allen drei Beurteilenden als relevant eingeschätzt und 8742 (58.4%) als nicht relevant. 30% der Dokumente, die in der ersten Einschätzung als relevant eingestuft worden waren, wurden in der Überprüfung von beiden zusätzlichen Bewertenden als nicht relevant eingeschätzt. Umgekehrt wurden 3 % der in der ersten Beurteilung als nicht relevant eingeschätzten Dokumente von beiden zusätzlichen Bewertern als relevant eingeschätzt.

Um die Auswirkungen auf die Bewertung der Systeme zu überprüfen, wurden für die eingereichten TREC 4 Ergebnisse mittlere Precisionwerte mit vier weiteren Relevanzangaben berechnet: Je einer mit den Relevanzbeurteilungen der zusätzlichen Beurteilenden sowie einer "Vereinigungsbeurteilung", bei der ein Dokument als relevant angenommen wurde, wenn es in einer der drei Beurteilungen als relevant eingeschätzt worden war, und einer "Durchschnittsbeurteilung" bei der ein Dokument nur dann als relevant angenommen wurde, wenn es von allen drei Beurteilenden als relevant eingeschätzt wurde (man beachte allerdings, dass die zusätzlichen Beurteilenden nicht alle Dokumente des Pools zu sehen bekamen, sondern nur 200 zufällig ausgewählte). Die Ergebnisse der Untersuchung zeigen, dass die mittleren Precisionwerte bei den unterschiedlichen Relvanzbeurteilungen variieren, die Rangfolge der Systeme aber im wesentlichen gleich bleibt. Ergebnisse für einige Systeme sind in der Abbildung 64 dargestellt.

Abb. 64: Ergebnisse einzelner Systeme aus TREC 4 mit unterschiedlichen Relevanzbeurteilungen

An TREC 5 nahmen 38 Gruppen aus neun Ländern teil. Nachdem in TREC 4 die mittleren Ergebnisse wegen der sehr kurzen Topics deutlich schlechter ausgefallen waren als in vorherigen Durchgängen, wurden sie in TREC 5 wieder durch Aufgliederung in drei Felder ("title", "description", "narrative") etwas ausführlicher gemacht, waren aber immer noch kürzer als in TREC 3. Allerdings mussten die Teilnehmenden ein Ergebnisset abliefern, in dem sie nur die "description" verwendeten, die in etwa den Topics aus TREC 4 entsprach.

In TREC 5 wurde eine Reihe von sogenannte tracks eingeführt, in denen spezifische Probleme bearbeitet werden konnten:

Im confusion track wurden neben den Originalen Dokumente verwendet, die durch Schrifterkennungssoftware in unterschiedlicher Güte (5% Fehlerrate und 20% Fehlerrate) aus gedruckten Dokumenten erzeugt wurden.
Im Database Merging track ging es darum, Ergebnislisten aus mehreren Dokumentsammlungen zu erzeugen. Dabei ging es zum einen darum ranggeordnete Ergebnislisten zusammenzuführen, aber auch darum zu einer Anfrage geeignete Dokumentsammlungen auszuwählen, damit nicht alle Anfragen an alle Sammlungen gestellt werden müssen.
Die Filtering Aufgabe unterscheidet sich vom Routing dadurch, dass keine Rangfolge von Dokumenten erzeugt werden muss, sondern eine (ungeordnete) Menge. Die Ergebnisse werden durch eine Funktion berechnet, die Kosten und Nutzen von relevanten und nicht relevanten Dokumenten in dieser Menge berechnet.
Beim Interactive track war (im Gegensatz zu "manual" runs) echtes Relevance Feedback zugelassen.
Mit Multilingual wurden Aufgaben bezeichnet, bei denen Topics und Dokumente nicht englisch waren. Es gab Untersuchungen für Spanisch und Chinesisch.
Beim NLP track (natural language processing) sollten Methoden aus der Verarbeitung natürlicher Sprache im Information Retrieval erprobt werden.

Die meisten dieser tracks sollen auch in weiteren TREC Runden fortgesetzt werden.

Bei den Ergebnissen von TREC 5 zeigen sich im Grossen und Ganzen wieder die selben Methoden und Systeme erfolgreich wie in TREC 4. Veränderungen wurden vor allem bei der Gewichtungsmethoden und bei der Auswahl der Dokumente für das (pseudo) Relevance Feedback vorgenommen.