ZURÜCK

4.5.6: Schwerpunkte von TREC 5

Nachdem in den letzten Abschnitten die Techniken, die in TREC 4 verwendet wurden ausführlicher vorgestellt wurden, sollen im folgenden einige Entwicklungen aus TREC 5 vorgestellt werden. Die Darstellung orientiert sich dabei im Wesentlichen an Voorhees und Harman (www [->]).

Zunächst wurde im Anschluss an TREC 4 die Poolingmethode noch einmal empirisch überprüft. Dazu wurden für alle 49 TREC 4 Topics, zu denen relvante Dokumente gefunden worden waren, jeweils zufällig 200 relevante Dokumente (bzw. alle relevanten, wenn das weniger als 200 waren) und 200 als nicht relevant eingeschätze Dokumente ausgewählt. Die so bestimmten 14 968 Dokumente wurde durch zwei weitere Beurteilende auf ihre Relevanz zu den Topics eingeschätzt. Dabei ergaben sich folgende Ergebnisse: 1992 (13.3%) wurden von allen drei Beurteilenden als relevant eingeschätzt und 8742 (58.4%) als nicht relevant. 30% der Dokumente, die in der ersten Einschätzung als relevant eingestuft worden waren, wurden in der Überprüfung von beiden zusätzlichen Bewertenden als nicht relevant eingeschätzt. Umgekehrt wurden 3 % der in der ersten Beurteilung als nicht relevant eingeschätzten Dokumente von beiden zusätzlichen Bewertern als relevant eingeschätzt.

Um die Auswirkungen auf die Bewertung der Systeme zu überprüfen, wurden für die eingereichten TREC 4 Ergebnisse mittlere Precisionwerte mit vier weiteren Relevanzangaben berechnet: Je einer mit den Relevanzbeurteilungen der zusätzlichen Beurteilenden sowie einer "Vereinigungsbeurteilung", bei der ein Dokument als relevant angenommen wurde, wenn es in einer der drei Beurteilungen als relevant eingeschätzt worden war, und einer "Durchschnittsbeurteilung" bei der ein Dokument nur dann als relevant angenommen wurde, wenn es von allen drei Beurteilenden als relevant eingeschätzt wurde (man beachte allerdings, dass die zusätzlichen Beurteilenden nicht alle Dokumente des Pools zu sehen bekamen, sondern nur 200 zufällig ausgewählte). Die Ergebnisse der Untersuchung zeigen, dass die mittleren Precisionwerte bei den unterschiedlichen Relvanzbeurteilungen variieren, die Rangfolge der Systeme aber im wesentlichen gleich bleibt. Ergebnisse für einige Systeme sind in der Abbildung 64 dargestellt.

ZUGANGAbb. 64: Ergebnisse einzelner Systeme aus TREC 4 mit unterschiedlichen Relevanzbeurteilungen

An TREC 5 nahmen 38 Gruppen aus neun Ländern teil. Nachdem in TREC 4 die mittleren Ergebnisse wegen der sehr kurzen Topics deutlich schlechter ausgefallen waren als in vorherigen Durchgängen, wurden sie in TREC 5 wieder durch Aufgliederung in drei Felder ("title", "description", "narrative") etwas ausführlicher gemacht, waren aber immer noch kürzer als in TREC 3. Allerdings mussten die Teilnehmenden ein Ergebnisset abliefern, in dem sie nur die "description" verwendeten, die in etwa den Topics aus TREC 4 entsprach.

In TREC 5 wurde eine Reihe von sogenannte tracks eingeführt, in denen spezifische Probleme bearbeitet werden konnten:

Die meisten dieser tracks sollen auch in weiteren TREC Runden fortgesetzt werden.

Bei den Ergebnissen von TREC 5 zeigen sich im Grossen und Ganzen wieder die selben Methoden und Systeme erfolgreich wie in TREC 4. Veränderungen wurden vor allem bei der Gewichtungsmethoden und bei der Auswahl der Dokumente für das (pseudo) Relevance Feedback vorgenommen.


ZURÜCK

© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber