ZURÜCK

6.1.3: Anwendung im mehrsprachigen Retrieval

Assoziative Thesauren, die mit Kookurrenzverfahren gewonnen werden, können auch zum mehrsprachigen Retrieval (" cross language retrieval") verwendet werden. Sheridan und Ballerini (1996) [->] beschreiben ein System bei dem dazu deutsche und italienische Meldungen der Schweizerischen Depeschen Agentur verwendet wurden. Der Korpus bestand aus 93 229 italienischsprachigen Meldungen mit einer durchschnittlichen Länge von 112 Termen, die mit dem Datum, einer Ortsangabe (mögliche Werte: 25 Schweizer Ortsnamen, 10 "Kontinent"-Angaben, 250 Länderbezeichnungen) und einer groben Inhaltskategorisierung (ca. 50 Themenbereiche) indexiert waren. Weiter standen für den gleichen Zeitraum die deutschsprachigen Meldungen mit dem gleichen Indexierungsschema zur Verfügung. Es handelte sich dabei aber nicht um Übersetzungen: die Meldungen wurden in den beiden Sprachen unabhängig voneinander geschrieben. Ausserdem musste nicht zu jeder Meldung in einer Sprache eine Meldung in der anderen Sprache vorliegen; die Agenturmeldungen legen teilweise Schwerpunkte auf die Gebiete in denen die jeweilige Sprache gesprochen wird.

Anhand der Merkmale wurden für beide Sprachen Mengen von Meldungen mit gleicher Indexierung gebildet. Diese Mengen wurden zu einem "Dokument" zusammengefasst. Aufgrund des gemeinsamen Auftretens von Termen in den so gebildeten 10 293 zweisprachigen Dokumenten (mit einer durchschnittlichen Länge von 2770 Termen) wurde ein zweisprachiger Ähnlichkeitsthesaurus berechnet. Dabei konnte eine Grundformenreduktion druchgeführt werden.

ZUGANGAbb. 79: Ergebnisse der Studie zum mehrsprachigen Retrieval (nach Sheridan und Ballerini, 1996)

Um eine deutsche Anfrage auf die italienischen Meldungen anzuwenden wurde die Anfrage mit dem Ähnlichkeitsthesaurus erweitert. Das Ergebnis war eine Liste mit deutschen und italienischen Termen, die jeweils mit einem Ähnlichkeitswert bezüglich der ursprünglichen deutschen Anfrage versehen waren. Aus dieser Liste wurden mit Hilfe einer italienischen Wortliste eine festgelegte Anzahl der ähnlichsten italienischen Terme herausgesucht und an das Retrieval System mit den italienischen Dokumenten weitergereicht. Das lieferte eine nach Ähnlichkeit geordnete Liste mit italienischen Meldungen. Dabei wurde das ursprünglich an der ETH (Eidgenössischen Technischen Hochschule Zürich) entwickelte Vektorraummodlellsystem SPIDER, verwendet, das unterdessen kommerziell weiterentwickelt wird.

Um die Ergebnisse zu vergleichen wurden Retrievalexperimente mit ins italienische übersetzten Anfragen durchgeführt, einmal mit und einmal ohne Grundformenreduktion. Die rein italienischen Ergebnisse mit Grundformenreduktion sind dabei deutlich besser als die ohne. Die mehrsprachigen Ergebnisse mit den deutschen Anfragen (bei denen Grundformenreduktion benutzt wurde) liegen zwischen diesen beiden Werten, allerdings deutlich näher an den (schlechteren) Ergebnissen ohne Grundformenreduktion (Siehe Abbildung _79_ ).

In einem weiteren Experiment wurde zusätzlich zur mehrsprachigen Suche ein (italienischer) Relevance Feedback Schritt eingebaut. Dadurch wurden die Ergebnisse der mehrsprachigen Suche deutlich verbessert.

Bei der Bewertung der Ergebnisse sollten einige Besonderheiten des Materials berücksichtigt werden. Die Anfragen waren verhältnismäßig kurze Beschreibungen (im Mittel 5 Terme) von "unvorhersehbaren" Ereignissen. Deshalb wurde die Suche nach relevanten Dokumenten auf Meldungen beschränkt, die nach dem Ereignis erschienen. Die Anfragen sind im Anhang des Artikels angegeben z. B: "Estnische Passagierfähre gesunken", "Erdbeben in Algerien", "Achille Lauro brennt" oder "Flammen zerstören alten Parlamentssaal in Belfast".) Diese Situation ist sicherlich spezifisch für eine Sammlung von Agenturmeldungen und lässt sich nicht ohne weiteres auf andere Gebiete übertragen. Es wurden an der ETH aber auch erfolgreiche Experimente mit anderem Material, wie z. B. mehrsprachigen juristischen Texten, durchgeführt (Sheridan, Braschler und Schäuble, 1997 [->]).


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber