ZURÜCK

3.5.5: Testkollektionen

Schon im Abschnitt _3.5.2_ war darauf hingewiesen worden, dass eine "objektive" oder zumindest definitorische Bestimmung von Relevanz nicht möglich ist. Um die Relevanz eines Dokumentes für eine Anfrage zu bestimmen, werden i. a. Experten befragt. Das ist eine sehr aufwändige Methode, denn um Retrieval Systeme zu bewerten oder zu vergleichen, sollten sie im Idealfall an großen Datensammlungen mit einer repräsentativen Menge von Anfragen überprüft werden. Dazu wäre es im Prinzip notwendig, zu jeder Anfrage alle relevanten Dokumente der Datenbank, zumindest aber deren Anzahl, zu kennen. Um die Menge der relevanten Dokumente zu bestimmen, kann nicht einfach ein anderes Retrievalsystem verwendet werden, da in diesem Fall das zu testende System kaum besser werden könnte als das zur Bestimmung der relevanten Dokumente verwendete System.

Um die Anzahl der zu einer Anfrage relevanten Dokumente zu bestimmen bzw. abzuschätzen, kann man, neben der Durchsicht aller Dokumente einer Sammlung, verschiedene Vorgehensweisen wählen (siehe auch Fuhr (1995 [->])):

Die beiden letzten Verfahren liefern nur eine Schätzung der Anzahl der relevanten Dokumente in der Sammlung. Um Precision und Recall zu bestimmen, müssen jeweils noch die relevanten Dokumente in den zu untersuchenden Antwortmengen bestimmt werden. Dabei sind die Methoden zur Bestimmung der Anzahl der relevanten Dokumente in der gesamten Sammlung und in der Antwortmenge verschieden, was zu einem systematischen Fehler bei der Schätzung der Werte führen kann.

ZUGANGAbb. 35: Testkollektionen (nach Griffiths Luckhurst & Willett 1986 und Dumais, 1991)

Viele dieser Methoden sind in einem streng empirischen Sinn nur schwer haltbar, insbesondere wenn sie von nur wenigen Personen, die häufig auch noch selbst mit der Untersuchung oder sogar Entwicklung des Systems befasst sind, durchgeführt werden. Ausserdem sind sie für die Bewertenden sehr anstrengend, so dass zu befürchten ist, dass die Motivation im Laufe der Bewertung nachlässt oder aber zumindest nicht konstant bleibt. Ein weiteres Problem ist die Veränderung des Wissensstandes der Bewertenden im Laufe der Bewertung, der vermutlich zu einer Veränderung des Bewertungsmaßstabes führen dürfte.

Trotz all dieser Mängel sind als mehr oder weniger befriedigende Lösung im Laufe der letzten 30 Jahre eine Reihe von sogenannten Testkollektionen ( Document Test Collections) zusammengestellt worden, die jeweils aus einer Sammlung von Dokumenten, einer Sammlung von Anfragen und den Angaben der für die Anfragen relevanten Dokumente in der Sammlung bestehen. Angaben zu einigen davon sind in der Tabelle in Abbildung _35_ zusammengestellt.

Mit diesen Sammlungen können Evaluierungsmaße wie Precision und Recall oder Precision-Recall-Diagramme ermittelt werden. Die Hauptprobleme bei diesem Vorgehen liegen darin, dass


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber