ZURÜCK

3.2.1: Wortorientierte Reduktionsverfahren

Der computerlinguistische Ansatz versucht, Terme in Texten nicht als Zeichenketten zu definieren, sondern als bestimmte Formen eines Wortes aufzufassen. Es werden also z. B. verschiedene Flexionsformen eines Wortes als zusammengehörig oder sogar als identisch betrachtet. Man unterscheidet dabei zwischen der Grundformreduktion, die die Wörter auf ihre grammatikalische Grundform (bei Substantiven auf den Nominativ singular, bei Verben auf den Infinitiv) zurückführt, und Stammformreduktion, die die Wortformen auf ihren Stamm zurückführt, der im Allgemeinen keine in der Sprache als Wort vorkommende Form ist und z. B. für ein Verb und ein Substantiv gleich sein kann. Diese Reduktion von verschiedenen Formen eines Wortes auf eine Grundform oder einen Stamm wird auch Lemmatisierung oder Stemming genannt. Sie führt zum einen dazu, dass sehr verschiedene Zeichenketten als gleich angesehen werden, andererseits sollten im Idealfall identische Zeichenketten, die von verschiedenen Wortstämmen abgeleitet werden, als verschieden angesehen werden. So werden "finden" und "gefundenes" auf den selben Stamm zurückgeführt, sind aber als Zeichenketten ziemlich verschieden, während die Zeichenkette "Winden" auf die Stämme "Wind", "Winde" und "winden" zurückgeführt werden kann.

Im Information Retrieval können solche Verfahren eingesetzt werden, indem beim Indexieren nur die Stämme verwendet werden. Abbildung 3.2.1 zeigt diese Anwendung schematisch: die Reduktion auf Stämme oder Grundformen kann als zusätzliche Transformation der Repräsentation der Dokumente angesehen werden, die ihre Darstellung weiter verallgemeinert. Entsprechend werden bei Anfragen Wortformen auf die Stämme oder Grundformen zurückgeführt. Man verfolgt damit zwei Ziele:

Zur Frage, wieweit die zweite Annahme zutrifft, sind eine Reihe von Experimenten durchgeführt worden (siehe Frakes und Baeza-Yates 1992 [->], Hull, 1996 [->]). Die Ergebnisse sind uneinheitlich. Wichtige Einflussfaktoren für den Erfolg scheinen u. a. die Homogenität der Dokumentsammlung, in der gesucht wird, und die Länge der Anfrage zu sein.

ZUGANGAbb. 14: Schematische Darstellung der Verwendung von Grundformreduktionsverfahren in einem textbasierten Information Retrieval System

Um in einem Text Grundformen oder Wortstämme als Terme zu isolieren, kann man zunächst versuchen, allgemeine Regeln aufzustellen, nach denen Zeichenketten auf Grundformen bzw. Stämme zurückgeführt werden können. Für das Englische gibt es eine ganze Reihe solcher Verfahren. Einige werden im 8. Kapitel des Buches von Frakes und Baeza-Yates (1992 [->]) behandelt. Hier soll der Algorithmus von Kuhlen (1977 [->]) kurz vorgestellt werden.

ZUGANG3.2.1.1: Lexikographische Grundformenreduktion nach Kuhlen

Diese Form der Reduktion ist im Englischen verhältnismäßig erfolgreich, weil die Wörter sich in der Sprache wenig ändern, d. h. wenige Flexionsformen besitzen. Zudem gibt es wenig zusammengesetzte Wörter. Im Deutschen sieht das ganz anders aus. Hier lassen sich solche Regeln nicht erfolgreich konstruieren und anwenden. Deshalb muss auf lexikonbasierte Verfahren zurückgegriffen werden.

ZUGANG3.2.1.2: Lexikonbasierte Morphologieprogramme

Auch nach der Reduktion auf Grund- oder Stammformen bleibt das Problem für mehrdeutige Wortformen bzw. Wörter den jeweils richtigen Stamm bzw. die jeweils richtige Bedeutung festzulegen. Es wird als Polysemie - oder Ambiguitätsproblem bezeichnet und ist für isolierte Wörter nicht zu lösen. Man kann aber die Situationen betrachten, in denen die Reduktionen vorgenommen werden, und versuchen, die Mehrdeutigkeiten in dem jeweiligen Kontext zu lösen.

Die Bestimmung von Termen ist im Information Retrieval bei der Indexierung und bei der Bearbeitung von Anfragen notwendig. Bei der Bestimmung von Termen als Zeichenketten sind die Regeln, nach denen Terme isoliert werden, in beiden Fällen sehr ähnlich. Sie bestehen im wesentlichen aus Regeln auf Zeichenebene, die durch die Stoppwortliste und einige Ausschlussregeln für bestimmte Zeichenmuster ergänzt werden. Bei der Bearbeitung von Anfragen müssen über diese Regeln hinaus noch trunkierte Zeichenketten expandiert werden.

Bei der Auswahl eines Stammes aus mehreren möglichen Stämmen unterscheidet sich die Situation bei der Indexierung und der Queryverarbeitung. Genauer gesagt: Weil die Bestimmung der richtigen Stämme schwieriger ist, muß man sich die jeweilige Situation zunutze machen, um das Problem möglichst gut zu lösen: Bei der Bestimmung von Anfragetermen kann man versuchen, die Auswahl der Terme im Dialog mit den Nutzenden zu lösen. Dazu muß allerdings zunächst erkannt werden, dass eine Zeichenkette mehrdeutig ist. Das ist nur mit einem lexikonbasierten oder einem statistischen System möglich. Bei der Indexierung kann man versuchen, den Kontext der Dokumente zu nutzen, um die vorgefundenen mehrdeutigen Zeichenketten dem richtigen Term zuzuordnen. Auch dazu ist allerdings zusätzliches Wissen wie ein Lexikon oder eine Assoziationstabelle nötig.

Das zur Polysemie entgegengesetzte Problem ist das der Synonymie: gleiche Objekte werden mit verschiedenen Begriffen bezeichnet. Dieses Problem kann auch mit externem Wissen, wie einem Synonymlexikon, angegangen werden.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber