R. Ferber: Data Mining & Information Retrieval 1.4.5.6

3.5.6: Die TREC Experimente

Neben diesen Testkollektionen gibt es seit 1992 ungefähr jährlich die sogenannten TREC Experimente ( Text REtrieval Conference http://trec.nist.gov/), die vom National Institute of Standards and Technology ( NIST) der USA durchgeführt werden. Ziel dieser Großversuche ist es, Forschungsgruppen zusammenzubringen, um ihre Systeme mit Hilfe eines gemeinsamen großen Testkorpus zu diskutieren und mit einer einheitlichen Auswertungsprozedur zu vergleichen.

Dazu werden vom NIST zunächst als "Trainingsdaten" ein großer Textkorpus (ein Beispieldokument ist in Abbildung 3.5.6 dargestellt), eine Sammlung sogenannter Topics und die zugehörigen Relevanzangaben zur Verfügung gestellt. Ein Topic ist dabei eine mehr oder weniger ausführliche Beschreibungen einer Fragestellung bzw. eines Informationsbedarfs (siehe die Beispiele in Abbildung 37 ). Mit diesen Daten können die Systeme trainiert bzw. optimiert (und gegebenenfalls an die großen Datenmengen angepasst) werden.

Abb. 36: Beispieldokument aus dem TREC Korpus (nach Voorhees und Harman TREC 6)

Abb. 37: Topics aus verschiedenen TREC Durchgängen (nach Voorhees und Harman TREC 6)

Für den Vergleich der Systeme, also das eigentliche Experiment, werden zwei weitere Datensammlungen verwendet: eine Sammlung neuer Topics und ein Korpus mit neuen Dokumenten. Mit diesen Daten müssen die teilnehmenden Systeme zwei Aufgabenstellungen lösen: bei den sogenannten adhoc Anfragen müssen zu den neuen Topics relevante Dokumente aus dem alten Textkorpus gefunden werden; bei der routing task müssen zu den alten Anfragen relevante Dokumente aus den neuen Texten "herausgefiltert" werden. Die adhoc Aufgabe entspricht also der klassischen Aufgabe eines Retrieval Systems z. B. in einer Literaturdatenbank, die Routing Aufgabe kann mit einem Ausschnittdienst oder einem Pressespiegel verglichen werden.

Die teilnehmenden Forschungsgruppen müssen zu jeder einzelnen Aufgabe eine geordnete Ergebnisliste mit 1000 Dokumenten einreichen. Daraus werden zur Auswertung Precision-Recall-Diagramme berechnet. Um die Systeme miteinander zu vergleichen, werden mittlere Precisionwerte verwendet.

Bei TREC-3 bestand der Trainingskorpus aus ca. 2 Gigabyte Textdaten und 150 Topics, die in TREC-1 und TREC-2 verwendet worden waren. Dadurch lagen Relevanzbeurteilungen aus diesen Experimenten vor, die für das Training verwendet werden konnten. Der Testkorpus bestand aus ca. einem Gigabyte Texten und 50 neuen Topics. Eine genauere Aufstellung findet sich in Harman (1995 [->]). Seit TREC-3 ist die Dokumentsammlung auf ca. 5 Gigabyte oder 1,6 Mio Dokumente angewachsen. Es stehen inzwischen 400 Topics unterschiedlicher Ausführlichkeit und die zugehörigen Relevanzdaten zur Verfügung.

3.5.6.1: Relevanzbestimmung

Im Laufe der verschiedenen TREC Experimente wurden die Ergebnisse tendenziell immer besser. Allerdings wurden die Aufgaben variiert, was die verschiedenen TREC Läufe nicht direkt vergleichbar macht. So waren die ersten Topicbeschreibungen sehr ausführlich. Sie wurden in den folgendenen TREC Läufen immer weiter verkürzt, wodurch gute Ergebnisse immer schwieriger zu erziehlen waren. In späteren Läufen wurden mehrere unterschiedlich ausführliche Topicbeschreibungen angeboten, die parallel verwendet werden konnten.

Es ist auch möglich, dass sich die Ergebnisse dadurch, dass die in einem Laufes gefundenen Relevanzdaten immer als Trainingsdaten des nächsten Lauf verwendet werden, auf die Dauer verzerren. Durch die Poolingmethode werden nur solche Dokumente zur Relevanzbeurteilung zugelassen, die von mindestens einem System unter den 100 besten Dokumenten plaziert wurden. Durch das Training mit diesen Relevanzangaben werden die Ergebnisse der verschiedenen Systeme immer ähnlicher. Es findet aber nur bedingt eine Kontrolle statt, ob sie auch im Sinne einer Relevanzuntersuchung für die gesamte Datensammlung besser werden.