Testkollektionen [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Bewertung und Vergleich von IR-Systemen
Stichwörter dieser Seite	Testkollektion, Frageerweiterung, repräsentative Stichprobe, Relevanzurteil, Document-Source-Methode, Testkollektion, document test collection
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.7.5: Testkollektionen

Schon in Abschnitt 1.3.7.2 war darauf hingewiesen worden, dass eine "objektive" oder zumindest definitorische Bestimmung von Relevanz nicht möglich ist. Um die Relevanz eines Dokuments für eine Anfrage zu bestimmen, werden deshalb meistens Expertinnen und Experten befragt.

Das ist eine sehr aufwändige Methode, denn um Retrieval-Systeme zu bewerten oder zu vergleichen, sollten sie im Idealfall an großen Datensammlungen mit einer repräsentativen Menge von Anfragen überprüft werden. Dazu wäre es im Prinzip notwendig, zu jeder Anfrage alle relevanten Dokumente der Datenbank, zumindest aber deren Anzahl, zu kennen. Um die Menge der relevanten Dokumente zu bestimmen, kann nicht einfach ein anderes Retrieval-System verwendet werden, da in diesem Fall das zu testende System kaum besser werden könnte als das zur Bestimmung der relevanten Dokumente verwendete System.

Es gibt verschiedene Vorgehensweisen um die Anzahl der zu einer Anfrage relevanten Dokumente zu bestimmen oder abzuschätzen. Die aufwändigste ist in der Regel die, alle Dokumente einer Sammlung von Fachleuten beurteilen zu lassen.

Weitere Ansätze lassen sich folgendermaßen zusammenfassen (siehe auch Fuhr, 1995 [->] ):

Frageerweiterung: Durch Verallgemeinerung der Anfrage versucht man, weitere relevante Dokumente zu finden. Dazu können auch verschiedene Recherchierende beitragen.
Externe Quellen: Man versucht, über sachverständige Personen, Bibliografien und andere Wissensquellen weitere relevante Dokumente bzw. Zugänge zu solchen zu finden.
Repräsentative Stichprobe: Man zieht aus der Gesamtmenge der Dokumente eine repräsentative Stichprobe und beurteilt deren Dokumente auf Relevanz. Problematisch dabei ist, dass für einigermaßen verlässliche Schätzungen bereits sehr große Stichproben (und damit sehr viele Relevanzurteile) nötig sind.
"Document-Source-Methode": Man wählt zufällig ein Dokument aus und formuliert eine Anfrage, für die dieses Dokument relevant ist. Anschließend überprüft man, ob das Dokument mit der Anfrage gefunden wird. Durch Wiederholung mit anderen Anfragen kann man die relative Häufigkeit, mit der das Dokument gefunden wird, als Näherung des Recall verwenden. Diese Methode hat den Nachteil, dass die Anfragen nicht von echten Nutzenden stammen. Sie ist zudem natürlich sehr anfällig für bewusste oder unbewusste Einflussnahmen bei der Konstruktion der Anfragen.

Die beiden letzten Verfahren liefern nur eine Schätzung der Anzahl der relevanten Dokumente in der Sammlung. Um Precision und Recall zu bestimmen, müssen jeweils noch die relevanten Dokumente in den zu untersuchenden Antwortmengen bestimmt werden. Dabei sind die Methoden zur Bestimmung der Anzahl der relevanten Dokumente in der gesamten Sammlung und in der Antwortmenge verschieden, was zu einem systematischen Fehler bei der Schätzung der Werte führen kann.

Viele dieser Methoden sind in einem streng empirischen Sinn nur schwer haltbar, insbesondere wenn sie von nur wenigen Personen durchgeführt werden, die häufig auch noch selbst mit der Untersuchung oder sogar Entwicklung des Systems befasst sind. Außerdem sind sie für die Bewertenden sehr anstrengend, sodass zu befürchten ist, dass die Motivation im Laufe der Bewertung nachlässt oder aber zumindest nicht konstant bleibt. Ein weiteres Problem ist die Veränderung des Wissensstands der Teilnehmenden im Laufe der Bewertung, der vermutlich zu einer Veränderung des Bewertungsmaßstabes führen dürfte.

Trotz all dieser Mängel sind als mehr oder weniger befriedigende Lösung im Laufe der letzten 30 Jahre eine Reihe von so genannten Testkollektionen (document test collections) zusammengestellt worden, die jeweils aus einer Sammlung von Dokumenten, einer Sammlung von Anfragen und den Angaben der für die Anfragen relevanten Dokumente in der Sammlung bestehen. Angaben zu einigen davon sind in der Tabelle in Abbildung 41 zusammengestellt.

Abbildung 41: Testkollektionen

Mit diesen Sammlungen können Evaluierungsmaße wie Precision und Recall oder Precision-Recall-Diagramme ermittelt werden. Die Hauptprobleme bei diesem Vorgehen liegen darin, dass

die Sammlungen im Allgemeinen eher klein sind,
häufig unklar ist, wie sie zustande gekommen sind,
viele Sammlungen inzwischen recht alt und damit nicht mehr repräsentativ für die heutigen Inhalte und Dokumentformate sind,
die Sammlungen immer wieder verwendet werden und damit eine Optimierung der Systeme auf die Sammlungen hin stattfindet,
unterschiedliche Sammlungen sich unterschiedlich verhalten,
die Auswahl einer Sammlung für eine Evaluierung teilweise recht willkürlich erscheint. Das heißt, es kann nicht ausgeschlossen werden, dass die Sammlung verwendet wird, bei der die Ergebnisse am besten sind.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Bewertung und Vergleich von IR-Systemen

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.7.5	Testkollektionen
Abb. 41	Testkollektionen

Testkollektion, Frageerweiterung, repräsentative Stichprobe, Relevanzurteil, Document-Source-Methode, Testkollektion, document test collection

document test collection, Document-Source-Methode, Frageerweiterung, Relevanzurteil, repräsentative Stichprobe, Testkollektion, Testkollektion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.