| |||||||||||||
1.3.7.5: TestkollektionenSchon in Abschnitt 1.3.7.2 war darauf hingewiesen worden, dass eine "objektive" oder zumindest definitorische Bestimmung von Relevanz nicht möglich ist. Um die Relevanz eines Dokuments für eine Anfrage zu bestimmen, werden deshalb meistens Expertinnen und Experten befragt. Das ist eine sehr aufwändige Methode, denn um Retrieval-Systeme zu bewerten oder zu vergleichen, sollten sie im Idealfall an großen Datensammlungen mit einer repräsentativen Menge von Anfragen überprüft werden. Dazu wäre es im Prinzip notwendig, zu jeder Anfrage alle relevanten Dokumente der Datenbank, zumindest aber deren Anzahl, zu kennen. Um die Menge der relevanten Dokumente zu bestimmen, kann nicht einfach ein anderes Retrieval-System verwendet werden, da in diesem Fall das zu testende System kaum besser werden könnte als das zur Bestimmung der relevanten Dokumente verwendete System. Es gibt verschiedene Vorgehensweisen um die Anzahl der zu einer Anfrage relevanten Dokumente zu bestimmen oder abzuschätzen. Die aufwändigste ist in der Regel die, alle Dokumente einer Sammlung von Fachleuten beurteilen zu lassen. Weitere Ansätze lassen sich folgendermaßen zusammenfassen (siehe auch Fuhr, 1995 [->] ):
Viele dieser Methoden sind in einem streng empirischen Sinn nur schwer haltbar, insbesondere wenn sie von nur wenigen Personen durchgeführt werden, die häufig auch noch selbst mit der Untersuchung oder sogar Entwicklung des Systems befasst sind. Außerdem sind sie für die Bewertenden sehr anstrengend, sodass zu befürchten ist, dass die Motivation im Laufe der Bewertung nachlässt oder aber zumindest nicht konstant bleibt. Ein weiteres Problem ist die Veränderung des Wissensstands der Teilnehmenden im Laufe der Bewertung, der vermutlich zu einer Veränderung des Bewertungsmaßstabes führen dürfte. Trotz all dieser Mängel sind als mehr oder weniger befriedigende Lösung im Laufe der letzten 30 Jahre eine Reihe von so genannten Testkollektionen (document test collections) zusammengestellt worden, die jeweils aus einer Sammlung von Dokumenten, einer Sammlung von Anfragen und den Angaben der für die Anfragen relevanten Dokumente in der Sammlung bestehen. Angaben zu einigen davon sind in der Tabelle in Abbildung 41 zusammengestellt. Abbildung 41: TestkollektionenMit diesen Sammlungen können Evaluierungsmaße wie Precision und Recall oder Precision-Recall-Diagramme ermittelt werden. Die Hauptprobleme bei diesem Vorgehen liegen darin, dass
| |||||||||||||
| |||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.