ZURÜCK

3.2.1.2: Lexikonbasierte Morphologieprogramme

Probleme bereiten im Deutschen die vielfältigen Veränderungen auch des Wortstammes. So werden nicht nur am Ende Suffixe angehängt, wie bei "des Hauses", sondern es werden Umlaute eingefügt (Apfel - Äpfel, alt - älter, Kuß - Küsse), von "ß" zu "ss" gewechselt (zumindest nach der alten Schreibweise) und Präfixe vorangestellt (laufen - gelaufen). Bei den Präfixen muß noch unterschieden werden, ob das Präfix abgetrennt werden kann (mitbringen: er brachte den Brief mit; nicht: er mitbrachte den Brief) oder nicht (überbringen: er überbrachte den Brief; nicht: er brachte den Brief über). Abgetrennte Präfixe können die Bedeutung eines Wortes auch verändern (Professorin Mayer schlug ihren Assistenten (für die Stelle vor)). Diese Eigenschaften lassen sich kaum in allgemeine Regeln fassen; sie sind von den einzelnen Wörtern abhängig. Um sie zu speichern, muss ein Lexikon angelegt werden, in dem zu jedem Wort die jeweiligen Eigenschaften abgelegt werden. Dieses Lexikon muß zumindest teilweise von Hand gepflegt werden, was einen enormen Aufwand bedeuten kann. Besondere Probleme macht dabei die Tatsache, dass im Deutschen häufig Komposita gebildet werden, indem mehrere Substantive, Adjektive, Adverbien und auch Verben zu einem neuen Wort zusammengefügt werden. Dabei werden verschiedene " Verfugungen" verwendet, die keiner Regelmäßigkeit folgen (Schwein-kram, Schwein-s-haxe, Schwein-s-braten oder Schwein-e-braten), aber durchaus Probleme bei der Auflösung von Komposita machen können (Arbeit-s-amt, Arbeit-samt).

Lexikonbasierte Morphologieprogramme können entweder als Vollformenlexikon, bei denen zu jeder möglichen Form der Stamm aufgeführt wird, implementiert werden oder als Wortstammlexikon. Im letzteren Fall werden zu jedem Stamm nur soviele Informationen gespeichert, dass alle Wortformen generiert werden können. Dazu werden verschiedene Flexionsklassen unterschieden und Besonderheiten vermerkt. In "Morphy", einem einfachen Morphologieprogramm mit Stammformenlexikon von Lezius (1995 [->]) (Lezius, Rapp und Wettler 1998 [->]) wird z. B. für ein Substantiv abgespeichert, in welche von 62 verschiedenen Deklinationsklassen es fällt (dadurch ist auch das Genus bestimmt), und ob bei der Pluralbildung ein ß/ss Wechsel oder eine Vokalumlautung stattfindet. Bei einem ß/ss Wechsel wird das erste von rechts vorkommende "ß" durch "ss" ersetzt oder umgekehrt, bei der Vokalumlautung der erste von rechts vorkommende umlautbare Vokal durch seinen Umlaut.

Während die zeichenmusterbasierte Grundformenreduktion im Wesentlichen nur erlaubt, vorhandene Formen auf Grundformen abzubilden, können mit den lexikonbasierten Verfahren zu einer Grundform bestimmte oder auch alle Wortformen konstruiert werden. Die Reduktion auf lexikalische Grundformen wird in "Morphy" nach dem Prinzip "Lemmatisierung durch Generierung" durchgeführt. Es wird dabei folgendermaßen vorgegangen:

ZUGANGAbb. 18: Die Wortform "Flüssen" in der Flexionsanalyse bei Lezius (1995)

Lexikonbasierte Morphologieprogramme sind natürlich erheblich aufwändiger als die Grundformenreduktion mit lexikographischen Ersetzungsregeln. Sie bieten dafür aber erheblich mehr und genauere Informationen über die untersuchten Wortformen. Insbesondere für Verfahren, die nicht nur isolierte Wörter, sondern auch Wörter im (syntatktischen) Satzzusammenhang auswerten, sind diese zusätzlichen Informationen über die Wortform nützlich oder sogar zwingend notwendig. So gibt es auch für das Englische lexikonbasierte Morphologieprogramme. Eines davon (auch für die Sprachen Französisch, Deutsch, Italienisch und Spanisch) wird vom Xerox-Forschungszentrum in Grenoble (Xerox WWW) [->] angeboten.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber