R. Ferber: Data Mining & Information Retrieval 1.4.5.5

3.5.5: Testkollektionen

Schon im Abschnitt _3.5.2_ war darauf hingewiesen worden, dass eine "objektive" oder zumindest definitorische Bestimmung von Relevanz nicht möglich ist. Um die Relevanz eines Dokumentes für eine Anfrage zu bestimmen, werden i. a. Experten befragt. Das ist eine sehr aufwändige Methode, denn um Retrieval Systeme zu bewerten oder zu vergleichen, sollten sie im Idealfall an großen Datensammlungen mit einer repräsentativen Menge von Anfragen überprüft werden. Dazu wäre es im Prinzip notwendig, zu jeder Anfrage alle relevanten Dokumente der Datenbank, zumindest aber deren Anzahl, zu kennen. Um die Menge der relevanten Dokumente zu bestimmen, kann nicht einfach ein anderes Retrievalsystem verwendet werden, da in diesem Fall das zu testende System kaum besser werden könnte als das zur Bestimmung der relevanten Dokumente verwendete System.

Um die Anzahl der zu einer Anfrage relevanten Dokumente zu bestimmen bzw. abzuschätzen, kann man, neben der Durchsicht aller Dokumente einer Sammlung, verschiedene Vorgehensweisen wählen (siehe auch Fuhr (1995 [->])):

Frageerweiterung: Durch Verallgemeinerung der Anfrage versucht man weitere relevante Dokumente zu finden. Dazu können auch verschiedene Recherchierende beitragen.
Externe Quellen: Man versucht über Experten, Bibliographien und andere Wissensquellen weitere relevante Dokumente bzw. Zugänge zu solchen zu finden.
Repräsentative Stichprobe: aus der Gesamtmenge der Dokumente eine repräsentative Stichprobe ziehen und deren Dokumente auf Relevanz beurteilen. Problematisch dabei ist, dass für einigermaßen verläßliche Schätzungen bereits sehr große Stichproben (und damit sehr viele Relevanzurteile) nötig sind.
" Document-Source-Methode": Man wählt zufällig ein Dokument aus und formuliert eine Anfrage, für die dieses Dokument relevant ist. Anschließend überprüft man, ob das Dokument mit der Anfrage gefunden wird. Durch Wiederholung mit anderen Anfragen kann man die relative Häufigkeit, mit der das Dokument gefunden wird, als Näherung des Recalls verwenden. Diese Methode hat den Nachteil, dass die Anfragen keine echten Benutzeranfragen sind. Sie ist zudem natürlich sehr anfällig für bewusste oder unbewusste Einflussnahmen bei der Konstruktion der Anfragen.

Die beiden letzten Verfahren liefern nur eine Schätzung der Anzahl der relevanten Dokumente in der Sammlung. Um Precision und Recall zu bestimmen, müssen jeweils noch die relevanten Dokumente in den zu untersuchenden Antwortmengen bestimmt werden. Dabei sind die Methoden zur Bestimmung der Anzahl der relevanten Dokumente in der gesamten Sammlung und in der Antwortmenge verschieden, was zu einem systematischen Fehler bei der Schätzung der Werte führen kann.

Abb. 35: Testkollektionen (nach Griffiths Luckhurst & Willett 1986 und Dumais, 1991)

Viele dieser Methoden sind in einem streng empirischen Sinn nur schwer haltbar, insbesondere wenn sie von nur wenigen Personen, die häufig auch noch selbst mit der Untersuchung oder sogar Entwicklung des Systems befasst sind, durchgeführt werden. Ausserdem sind sie für die Bewertenden sehr anstrengend, so dass zu befürchten ist, dass die Motivation im Laufe der Bewertung nachlässt oder aber zumindest nicht konstant bleibt. Ein weiteres Problem ist die Veränderung des Wissensstandes der Bewertenden im Laufe der Bewertung, der vermutlich zu einer Veränderung des Bewertungsmaßstabes führen dürfte.

Trotz all dieser Mängel sind als mehr oder weniger befriedigende Lösung im Laufe der letzten 30 Jahre eine Reihe von sogenannten Testkollektionen ( Document Test Collections) zusammengestellt worden, die jeweils aus einer Sammlung von Dokumenten, einer Sammlung von Anfragen und den Angaben der für die Anfragen relevanten Dokumente in der Sammlung bestehen. Angaben zu einigen davon sind in der Tabelle in Abbildung _35_ zusammengestellt.

Mit diesen Sammlungen können Evaluierungsmaße wie Precision und Recall oder Precision-Recall-Diagramme ermittelt werden. Die Hauptprobleme bei diesem Vorgehen liegen darin, dass

die Sammlungen i. A. eher klein sind,
häufig unklar ist, wie sie zustande gekommen sind,
viele Sammlungen inzwischen recht alt und damit nicht mehr repräsentativ für die heutigen Inhalte und Dokumentformate sind
die Sammlungen immer wieder verwendet werden und damit eine Optimierung der Systeme auf die Sammlungen hin stattfindet
unterschiedliche Sammlungen sich unterschiedlich verhalten
die Auswahl einer Sammlung für eine Evaluierung teilweise recht willkürlich erscheint. D. h. es kann nicht ausgeschlossen werden, dass die Sammlung verwendet wird, bei der die Ergebnisse am besten sind.