ZURÜCK

3.5.6.1: Relevanzbestimmung

Zur Bestimmung der relevanten Dokumente verwendet TREC ein Poolingverfahren: Zunächst werden zu jeder Aufgabe eine Grundmenge von Dokumenten gebildet, indem aus jeder Ergebnisliste zu der Aufgabe eine feste Anzahl (100 bei TREC) der bestplazierten Dokumente ausgewählt wird. Die Dokumente aus dieser Grundmenge werden dann von einem Experten oder einer Expertin auf ihre Relevanz für den Topic beurteilt. Dieses Verfahren wurde gewählt, um den Aufwand bei der Relevanzbeurteilung durch Personen in Grenzen zu halten.

Für die Relevanzurteile aus TREC-2 wurde die Poolingmethode an 36 Topics überprüft, je zur Hälfte adhoc und routing Aufgaben. Dazu wurden aus sieben "guten" Ergebnislisten die ersten 200 Dokumente in die Grundmenge übernommen und ihre Relevanz neu bewertet. Es zeigt sich, dass dabei im Mittel 16% neue relevante Dokumente gefunden wurden (siehe Abbildung 38 ).

ZUGANGAbb. 38: Überprüfung der Relevanzbeurteilung bei TREC-2 nach Harman (1995)

Bei TREC-3 wurden zwei Auswertungen durchgeführt. Einmal wurden die 100 besten Dokumente jeder Ergebnisliste in die Grundmenge übernommen, beim anderen Mal wurden die 200 besten gewählt. Von den im Mittel 1946 Dokumenten der größeren Grundmenge wurden durchschnittlich 196, also ca 10% als relevant eingeschätzt. Bei den durchschnittlich 1005 Dokumenten der kleineren Grundmenge betrug diese Zahl 146, also ca. 15%. D. h. in den "zweiten" hundert Dokumenten der Ergebnislisten ist die Anzal der relevanten Dokumente noch ca. ein drittel der Zahl aus den "ersten" Hundert. Andererseits liegt die Anzahl gefundener relevanter Dokumente in allen Fällen über 100, bei TREC-2 sogar über 200, sodass das Poolingverfahren immer unzureichender wird, je "besser" die Systeme werden: Würden alle Systeme die gleiche Ergebnisliste liefern, könnte die Grundmenge maximal 100 Dokumente enhalten. Es würden also weniger Dokumente als relevant eingeschätzt werden können. Hier liegt ein Problem des Verfahrens: Es misst zu einem guten Teil die Ähnlichkeit der Ergebnislisten und nicht unbedingt deren Richtigkeit. Weitere Daten zu diesem Verfahren sind in der Tabelle 39 angegeben.

ZUGANGAbb. 39: Größe der Grundmenge der auf Relevanz beurteilten Dokumente nach Harman (1995 - WWW, 1996 - WWW)

Im Anschluss an TREC 4 wurde überprüft in wie weit Relevanzurteile der Poolingmethode von den einzelnen Beurteilenden abhängt. Dazu wurden für alle 49 TREC 4 Topics, zu denen relvante Dokumente gefunden worden waren, jeweils zufällig 200 relevante Dokumente (bzw. alle relevanten, wenn das weniger als 200 waren) und 200 als nicht relevant eingeschätze Dokumente ausgewählt. Die so bestimmten 14 968 Dokumente wurde durch zwei weitere Beurteilende auf ihre Relevanz zu den Topics eingeschätzt. Dabei ergaben sich folgende Ergebnisse: 1992 (13.3%) wurden von allen drei Beurteilenden als relevant eingeschätzt und 8742 (58.4%) als nicht relevant. 30% der Dokumente, die in der ersten Einschätzung als relevant eingestuft worden waren, wurden in der Überprüfung von beiden zusätzlichen Bewertenden als nicht relevant eingeschätzt. Umgekehrt wurden 3 % der in der ersten Beurteilung als nicht relevant eingeschätzten Dokumente von beiden zusätzlichen Bewertern als relevant eingeschätzt.

Um die Auswirkungen auf die Bewertung der Systeme zu überprüfen, wurden für die eingereichten TREC 4 Ergebnisse mittlere Precisionwerte mit vier weiteren Relevanzangaben berechnet: Je einer mit den Relevanzbeurteilungen der zusätzlichen Beurteilenden sowie einer "Vereinigungsbeurteilung", bei der ein Dokument als relevant angenommen wurde, wenn es in einer der drei Beurteilungen als relevant eingeschätzt worden war, und einer "Durchschnittsbeurteilung" bei der ein Dokument nur dann als relevant angenommen wurde, wenn es von allen drei Beurteilenden als relevant eingeschätzt wurde (man beachte allerdings, dass die zusätzlichen Beurteilenden nicht alle Dokumente des Pools zu sehen bekamen, sondern nur 200 zufällig ausgewählte). Die Ergebnisse der Untersuchung zeigen, dass die mittleren Precisionwerte bei den unterschiedlichen Relvanzbeurteilungen variieren, die Rangfolge der Systeme aber im wesentlichen gleich bleibt. Ergebnisse für einige Systeme sind in der Abbildung 40 dargestellt.

ZUGANGAbb. 40: Ergebnisse einzelner Systeme aus TREC 4 mit unterschiedlichen Relevanzbeurteilungen (nach Voorhees und Harman TREC 6)


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber