Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Stichwörter dieser Seite mehrsprachige Suche, mehrsprachiges Retrieval, assoziativer Thesaurus, cross language retrieval, Schweizerische Depeschen-Agentur, Grundformenreduktion, Vektorraummodell
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5.3: Anwendung im mehrsprachigen Retrieval

Assoziative Thesauren , die mit Kookurrenzverfahren gewonnen werden, können auch zum mehrsprachigen Retrieval ("cross language retrieval") verwendet werden. Sheridan und Ballerini (1996) [->] beschreiben ein System, bei dem deutsche und italienische Meldungen der Schweizerischen Depeschen-Agentur verwendet wurden. Der Korpus bestand aus 93 229 italienischsprachigen Meldungen mit einer durchschnittlichen Länge von 112 Termen, die mit dem Datum, einer Ortsangabe (mögliche Werte: 25 Schweizer Ortsnamen, 10 "Kontinent"-Angaben, 250 Länderbezeichnungen) und einer groben Inhaltskategorisierung (ca. 50 Themenbereiche) indexiert waren. Weiter standen für den gleichen Zeitraum die deutschsprachigen Meldungen mit dem gleichen Indexierungsschema zur Verfügung. Es handelte sich dabei aber nicht um Übersetzungen: Die Meldungen wurden in den beiden Sprachen unabhängig voneinander geschrieben. Außerdem musste nicht zu jeder Meldung in einer Sprache eine Meldung in der anderen Sprache vorliegen; die Agenturmeldungen legen teilweise Schwerpunkte auf die Gebiete, in denen die jeweilige Sprache gesprochen wird.

Anhand der Merkmale wurden für beide Sprachen Mengen von Meldungen mit gleicher Indexierung gebildet. Diese Mengen wurden zu einem "Dokument" zusammengefasst. Aufgrund des gemeinsamen Auftretens von Termen in den so gebildeten 10 293 zweisprachigen Dokumenten (mit einer durchschnittlichen Länge von 2 770 Termen) wurde ein zweisprachiger Ähnlichkeitsthesaurus berechnet. Dabei konnte eine Grundformenreduktion durchgeführt werden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 93: Ergebnisse der Studie zum mehrsprachigen Retrieval

Um eine deutsche Anfrage auf die italienischen Meldungen anzuwenden, wurde die Anfrage mit dem Ähnlichkeitsthesaurus erweitert. Das Ergebnis war eine Liste mit deutschen und italienischen Termen, die jeweils mit einem Ähnlichkeitswert bezüglich der ursprünglichen deutschen Anfrage versehen waren. Aus dieser Liste wurden mit Hilfe einer italienischen Wortliste eine festgelegte Anzahl der ähnlichsten italienischen Terme herausgesucht und an das Retrieval-System mit den italienischen Dokumenten weitergereicht. Dieses lieferte eine nach Ähnlichkeit geordnete Liste mit italienischen Meldungen zurück. Dabei wurde das ursprünglich an der ETH (Eidgenössischen Technischen Hochschule Zürich) entwickelte Vektorraummodell-System SPIDER verwendet, das unterdessen kommerziell weiterentwickelt wird.

Um die Ergebnisse zu vergleichen, wurden Retrieval-Experimente mit ins Italienische übersetzten Anfragen durchgeführt, einmal mit und einmal ohne Grundformenreduktion. Die rein italienischen Ergebnisse mit Grundformenreduktion sind dabei deutlich besser als die ohne. Die mehrsprachigen Ergebnisse mit den deutschen Anfragen (bei denen Grundformenreduktion benutzt wurde) liegen zwischen diesen beiden Werten, allerdings deutlich näher an den (schlechteren) Ergebnissen ohne Grundformenreduktion (siehe Abbildung 93 ). In einem weiteren Experiment wurde zusätzlich zur mehrsprachigen Suche ein (italienischer) Relevance-Feedback-Schritt eingebaut. Dadurch wurden die Ergebnisse der mehrsprachigen Suche deutlich verbessert.

Bei der Bewertung der Ergebnisse sollten einige Besonderheiten des Materials berücksichtigt werden. Die Anfragen waren verhältnismäßig kurze Beschreibungen (im Mittel 5 Terme) von unvorhersehbaren Ereignissen. Deshalb wurde die Suche nach relevanten Dokumenten auf Meldungen beschränkt, die nach dem Ereignis erschienen. Die Anfragen sind im Anhang des Artikels angegeben (Estnische Passagierfähre gesunken, Erdbeben in Algerien, Achille Lauro brennt oder Flammen zerstören alten Parlamentssaal in Belfast). Diese Situation ist sicherlich spezifisch für eine Sammlung von Agenturmeldungen und lässt sich nicht ohne weiteres auf andere Gebiete übertragen. Es wurden an der ETH aber auch erfolgreiche Experimente mit anderem Material, wie mehrsprachigen juristischen Texten, durchgeführt (Sheridan, Braschler und Schäuble, 1997 [->] ).

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5.3Anwendung im mehrsprachigen Retrieval
Abb. 93 Ergebnisse der Studie zum mehrsprachigen Retrieval
mehrsprachige Suche, mehrsprachiges Retrieval, assoziativer Thesaurus, cross language retrieval, Schweizerische Depeschen-Agentur, Grundformenreduktion, Vektorraummodell assoziativer Thesaurus, cross language retrieval, Grundformenreduktion, mehrsprachige Suche, mehrsprachiges Retrieval, Schweizerische Depeschen-Agentur, Vektorraummodell

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.