Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Stichwörter dieser Seite Narrative, Gewichtungsmethode, Confusion, Merging, Filtering, Routing, Rangfolge, Interactive, Multilingual, NLP, Cross Language, Very Large Corpus, Web Track, Spoken Document Retrieval, Question Answering
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.4.6: Spezialaufgaben (TREC Tracks)

An TREC-5 nahmen 38 Gruppen aus neun Ländern teil. Nachdem in TREC-4 die mittleren Ergebnisse wegen der sehr kurzen Topics deutlich schlechter ausgefallen waren als in vorherigen Durchgängen, wurden in TREC-5 wieder etwas ausführlichere Topics verwendet. Sie waren aber immer noch kürzer als in TREC-3. Zudem wurden sie in drei Felder (Title, Description, Narrative) aufgegliedert (siehe Abbildung 43 ). Die teilnehmenden Gruppen konnten die ausführlicheren Topics verwenden, mussten aber auch eine Ergebnismenge abliefern, in der sie nur die "Description" verwendeten, die in etwa den Topics aus TREC-4 entsprach.

Bei den Ergebnissen von TREC-5 waren im Großen und Ganzen wieder dieselben Methoden und Systeme erfolgreich wie in TREC-4. Veränderungen wurden vor allem bei den Gewichtungsmethoden und bei der Auswahl der Dokumente für das Pseudo-Relevance-Feedback vorgenommen (Voorhees und Harman (1997) [->] ).

In TREC-5 wurde eine Reihe von Spezialaufgaben (so genannte Tracks) eingeführt, in denen spezielle Probleme bearbeitet werden konnten:

  • Im Confusion Track wurden neben den Originalen Dokumente verwendet, die in unterschiedlicher Güte (5% Fehlerrate und 20% Fehlerrate) durch Schrifterkennungs-Software aus gedruckten Dokumenten erzeugt wurden.
  • Im Database Merging Track ging es darum, Ergebnislisten aus mehreren Dokumentensammlungen zu erzeugen. Einerseits mussten dafür ranggeordnete Ergebnislisten zusammengeführt werden, andererseits zu einer Anfrage geeignete Dokumentensammlungen ausgewählt werden, damit nicht alle Anfragen an alle Sammlungen gestellt werden müssen.
  • Die Filtering-Aufgabe unterscheidet sich vom Routing dadurch, dass keine Rangfolge von Dokumenten erzeugt werden muss, sondern eine (ungeordnete) Menge. Die Ergebnisse werden durch eine Funktion berechnet, die Kosten und Nutzen von relevanten und nicht relevanten Dokumenten in dieser Menge berechnet.
  • Beim Interactive Track war (im Gegensatz zu "manual" runs) echtes Relevance Feedback zugelassen.
  • Mit Multilingual wurden Aufgaben bezeichnet, bei denen Topics und Dokumente nicht englischsprachig waren. Es gab Untersuchungen für Spanisch und Chinesisch.
  • Beim NLP-Track (Natural Language Processing) sollten Methoden aus der Verarbeitung natürlicher Sprache im Information Retrieval erprobt werden.
Die meisten dieser Tracks wurden auch in späteren TREC-Runden fortgesetzt. Die Database-Merging-Aufgabe wurde allerdings bereits in TREC-7 wegen mangelnder Teilnahme wieder eingestellt. Dafür wurden weitere Aufgaben entwickelt (Voorhees und Harman, 2000 [->] ):
  • Im Cross Language Track wurden Topics in einer Sprache verwendet, um Dokumente in einer anderen Sprache zu suchen. Als Sprachen wurden Englisch, Französisch, Deutsch und Italienisch angeboten.
  • Beim Very Large Corpus Track wurde eine sehr viel größere Dokumentensammlung (ca. 100 Gigabyte bzw. 18,5 Millionen Web-Seiten) verwendet. In späteren TREC-Durchgängen wurde diese Aufgabe als Web Track weitergeführt, wobei auch die Verweise (Links) zwischen den Dokumenten verwendet werden konnten.
  • Das Spoken Document Retrieval Track wurde als Nachfolger des Confusion Track eingeführt. Dabei musste eine Suche in einer Sammlung von aufgezeichneten Radiosendungen (550 Stunden und ca. 21 500 Meldungen in TREC-8) durchgeführt werden. Der Zusammenhang mit dem Confusion Track ergibt sich aus der Verwendung von Spracherkennungs- bzw. Diktier-Software, mit der die gesprochene Sprache verschriftlicht wurde.
  • Im Question Answering Track bestand die Aufgabe darin, auf eine Frage eine kurze Antwort zu geben. Dafür wurden nicht die TREC-Topics verwendet, sondern Sachfragen, auf die eine kurze Antwort gegeben werden kann. Die Systeme mussten fünf Antworten pro Frage generieren. Ihre Länge war auf 50 oder 250 Zeichen beschränkt.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Erfolgreiche TREC-Systeme
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.4.6Spezialaufgaben (TREC Tracks)
Narrative, Gewichtungsmethode, Confusion, Merging, Filtering, Routing, Rangfolge, Interactive, Multilingual, NLP, Cross Language, Very Large Corpus, Web Track, Spoken Document Retrieval, Question Answering Confusion, Cross Language, Filtering, Gewichtungsmethode, Interactive, Merging, Multilingual, Narrative, NLP, Question Answering, Rangfolge, Routing, Spoken Document Retrieval, Very Large Corpus, Web Track

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.