3.4.6: Spezialaufgaben (TREC Tracks)
An TREC-5 nahmen 38
Gruppen aus neun Ländern teil. Nachdem in TREC-4
die mittleren Ergebnisse wegen der sehr kurzen
Topics deutlich schlechter ausgefallen waren
als in vorherigen Durchgängen, wurden in TREC-5 wieder
etwas ausführlichere Topics verwendet. Sie waren aber immer noch kürzer als
in TREC-3. Zudem wurden sie in drei Felder
(Title, Description,
Narrative) aufgegliedert (siehe
Abbildung 43
).
Die teilnehmenden Gruppen konnten die ausführlicheren Topics verwenden, mussten aber auch eine Ergebnismenge
abliefern, in der sie nur die "Description" verwendeten,
die in etwa den Topics aus TREC-4 entsprach.
Bei den Ergebnissen von TREC-5 waren im Großen und Ganzen
wieder dieselben Methoden und Systeme erfolgreich wie in TREC-4.
Veränderungen wurden vor allem bei den Gewichtungsmethoden und bei
der Auswahl der Dokumente für das Pseudo-Relevance-Feedback vorgenommen (Voorhees und Harman (1997) [->]
).
In TREC-5 wurde eine Reihe von
Spezialaufgaben (so genannte Tracks) eingeführt, in denen
spezielle Probleme bearbeitet werden konnten:
- Im Confusion Track
wurden neben den Originalen Dokumente verwendet, die in unterschiedlicher
Güte (5% Fehlerrate und 20% Fehlerrate) durch
Schrifterkennungs-Software aus gedruckten Dokumenten erzeugt wurden.
- Im Database Merging Track
ging es darum, Ergebnislisten aus mehreren Dokumentensammlungen zu
erzeugen. Einerseits mussten dafür ranggeordnete Ergebnislisten
zusammengeführt werden, andererseits zu einer Anfrage geeignete
Dokumentensammlungen ausgewählt werden, damit nicht alle Anfragen an alle
Sammlungen gestellt werden müssen.
- Die Filtering-Aufgabe
unterscheidet sich vom Routing
dadurch, dass keine Rangfolge von
Dokumenten erzeugt werden muss, sondern eine (ungeordnete) Menge. Die
Ergebnisse werden durch eine Funktion berechnet, die Kosten und Nutzen
von relevanten und nicht relevanten Dokumenten in dieser Menge
berechnet.
- Beim Interactive Track
war (im Gegensatz zu "manual" runs) echtes Relevance
Feedback zugelassen.
- Mit Multilingual
wurden Aufgaben bezeichnet, bei denen Topics und Dokumente nicht
englischsprachig waren. Es gab Untersuchungen für Spanisch und
Chinesisch.
- Beim NLP-Track
(Natural Language Processing) sollten Methoden aus der Verarbeitung
natürlicher Sprache im Information Retrieval erprobt werden.
Die meisten dieser Tracks wurden auch in späteren TREC-Runden fortgesetzt. Die
Database-Merging-Aufgabe wurde allerdings bereits in TREC-7 wegen mangelnder
Teilnahme wieder eingestellt.
Dafür wurden weitere Aufgaben entwickelt (Voorhees und Harman, 2000 [->]
):
- Im Cross Language
Track wurden Topics in einer Sprache verwendet, um Dokumente in einer anderen Sprache zu suchen.
Als Sprachen wurden Englisch, Französisch, Deutsch und Italienisch angeboten.
- Beim Very Large Corpus Track wurde eine sehr viel größere
Dokumentensammlung (ca. 100 Gigabyte bzw. 18,5 Millionen Web-Seiten) verwendet.
In späteren TREC-Durchgängen wurde diese Aufgabe
als Web Track weitergeführt, wobei auch die Verweise (Links)
zwischen den Dokumenten verwendet werden konnten.
- Das Spoken Document Retrieval Track wurde als Nachfolger des
Confusion Track eingeführt. Dabei musste eine Suche in einer Sammlung von aufgezeichneten Radiosendungen
(550 Stunden und ca. 21 500 Meldungen in TREC-8) durchgeführt werden. Der
Zusammenhang mit dem Confusion Track ergibt sich aus der Verwendung von Spracherkennungs- bzw. Diktier-Software,
mit der die gesprochene Sprache verschriftlicht wurde.
- Im Question Answering Track bestand die Aufgabe darin,
auf eine Frage eine kurze Antwort zu geben. Dafür wurden nicht die TREC-Topics verwendet, sondern Sachfragen,
auf die eine kurze Antwort gegeben werden kann. Die Systeme mussten fünf Antworten pro Frage generieren.
Ihre Länge war auf 50 oder 250 Zeichen beschränkt.
|
Dieser Abschnitt und seine Unterabschnitte |
Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
3.4.6 | Spezialaufgaben (TREC Tracks) |
|
Narrative, Gewichtungsmethode, Confusion, Merging, Filtering, Routing, Rangfolge, Interactive, Multilingual, NLP, Cross Language, Very Large Corpus, Web Track, Spoken Document Retrieval, Question Answering |
Confusion, Cross Language, Filtering, Gewichtungsmethode, Interactive, Merging, Multilingual, Narrative, NLP, Question Answering, Rangfolge, Routing, Spoken Document Retrieval, Very Large Corpus, Web Track |
|