3.5.5: Testkollektionen
Schon im Abschnitt
_3.5.2_
war darauf hingewiesen
worden, dass eine "objektive" oder zumindest definitorische
Bestimmung von Relevanz nicht möglich ist. Um die Relevanz eines
Dokumentes für eine Anfrage zu bestimmen, werden i. a. Experten
befragt. Das ist eine sehr aufwändige Methode, denn um Retrieval
Systeme zu bewerten oder zu vergleichen, sollten sie im Idealfall an
großen Datensammlungen mit einer repräsentativen Menge von
Anfragen überprüft werden. Dazu wäre es im Prinzip
notwendig, zu jeder Anfrage alle relevanten Dokumente der Datenbank,
zumindest aber deren Anzahl, zu kennen. Um die Menge der relevanten
Dokumente zu bestimmen, kann nicht einfach ein anderes Retrievalsystem
verwendet werden, da in diesem Fall das zu testende System kaum besser
werden könnte als das zur Bestimmung der relevanten Dokumente
verwendete System.
Um die Anzahl der zu einer Anfrage relevanten Dokumente zu
bestimmen bzw. abzuschätzen, kann man, neben der Durchsicht aller
Dokumente einer Sammlung, verschiedene Vorgehensweisen wählen
(siehe auch Fuhr (1995 [->])):
-
Frageerweiterung:
Durch Verallgemeinerung der Anfrage versucht man weitere relevante
Dokumente zu finden. Dazu können auch verschiedene Recherchierende
beitragen.
-
Externe Quellen: Man versucht über
Experten, Bibliographien und andere Wissensquellen weitere relevante
Dokumente bzw. Zugänge zu solchen zu finden.
-
Repräsentative
Stichprobe: aus der Gesamtmenge der Dokumente
eine repräsentative Stichprobe ziehen und deren Dokumente auf
Relevanz beurteilen. Problematisch dabei ist, dass für
einigermaßen verläßliche Schätzungen bereits sehr
große Stichproben (und damit sehr viele Relevanzurteile)
nötig sind.
- "
Document-Source-Methode":
Man wählt zufällig ein Dokument aus und formuliert eine
Anfrage, für die dieses Dokument relevant ist. Anschließend
überprüft man, ob das Dokument mit der Anfrage gefunden wird.
Durch Wiederholung mit anderen Anfragen kann man die relative
Häufigkeit, mit der das Dokument gefunden wird, als Näherung
des Recalls verwenden. Diese Methode hat den Nachteil, dass die Anfragen
keine echten Benutzeranfragen sind. Sie ist zudem natürlich sehr
anfällig für bewusste oder unbewusste Einflussnahmen bei der
Konstruktion der Anfragen.
Die beiden letzten Verfahren liefern nur eine Schätzung der Anzahl
der relevanten Dokumente in der Sammlung. Um Precision und Recall zu
bestimmen, müssen jeweils noch die relevanten Dokumente in den zu
untersuchenden Antwortmengen bestimmt werden. Dabei sind die Methoden
zur Bestimmung der Anzahl der relevanten Dokumente in der gesamten
Sammlung und in der Antwortmenge verschieden, was zu einem
systematischen Fehler bei der Schätzung der Werte führen
kann.
Viele dieser Methoden sind in einem streng empirischen Sinn nur
schwer haltbar, insbesondere wenn sie von nur wenigen Personen, die
häufig auch noch selbst mit der Untersuchung oder sogar Entwicklung
des Systems befasst sind, durchgeführt werden. Ausserdem sind sie
für die Bewertenden sehr anstrengend, so dass zu befürchten
ist, dass die Motivation im Laufe der Bewertung nachlässt oder aber
zumindest nicht konstant bleibt. Ein weiteres Problem ist die
Veränderung des Wissensstandes der Bewertenden im Laufe der
Bewertung, der vermutlich zu einer Veränderung des
Bewertungsmaßstabes führen dürfte.
Trotz all dieser Mängel sind als mehr oder weniger
befriedigende Lösung im Laufe der letzten 30 Jahre eine Reihe von
sogenannten
Testkollektionen
(
Document Test Collections)
zusammengestellt worden, die jeweils aus einer Sammlung von Dokumenten,
einer Sammlung von Anfragen und den Angaben der für die Anfragen
relevanten Dokumente in der Sammlung bestehen. Angaben zu einigen davon
sind in der Tabelle in Abbildung
_35_
zusammengestellt.
Mit diesen Sammlungen können Evaluierungsmaße wie
Precision und Recall oder Precision-Recall-Diagramme ermittelt werden.
Die Hauptprobleme bei diesem Vorgehen liegen darin, dass
- die Sammlungen i. A. eher klein sind,
- häufig unklar ist, wie sie zustande gekommen sind,
- viele Sammlungen inzwischen recht alt und damit nicht mehr
repräsentativ für die heutigen Inhalte und Dokumentformate
sind
- die Sammlungen immer wieder verwendet werden und damit eine
Optimierung der Systeme auf die Sammlungen hin stattfindet
- unterschiedliche Sammlungen sich unterschiedlich verhalten
- die Auswahl einer Sammlung für eine Evaluierung teilweise
recht willkürlich erscheint. D. h. es kann nicht ausgeschlossen
werden, dass die Sammlung verwendet wird, bei der die Ergebnisse am
besten sind.
© 2000 / HTML-Version 14. 1. 2000: R. Ferber