| |||||||||||||
1.3.2.3: Lexikonbasierte Morphologie-AnalyseProbleme bereiten im Deutschen die vielfältigen Veränderungen - auch des Wortstamms. So werden nicht nur am Ende Suffixe angehängt, wie bei des Hauses, sondern es werden Umlaute eingefügt (Apfel - Äpfel, alt - älter, Kuss - Küsse) und Präfixe vorangestellt (laufen - gelaufen). Vor der Rechtschreibreform mussten am Wortende auch noch "ß" und "ss" ausgetauscht werden. Bei den Präfixen muss zudem unterschieden werden, ob das Präfix abgetrennt werden kann (mitbringen: er brachte den Brief mit; nicht: er mitbrachte den Brief) oder nicht (überbringen: sie überbrachte den Brief; nicht: sie brachte den Brief über). Abgetrennte Präfixe können die Bedeutung eines Worts auch verändern (Professorin Mayer schlug ihren Assistenten (für die Stelle vor)). Besondere Probleme macht auch die Tatsache, dass im Deutschen häufig Komposita gebildet werden, indem mehrere Substantive, Adjektive, Adverbien und auch Verben zu einem neuen Wort zusammengefügt werden. Dabei werden verschiedene "Verfugungen" verwendet, die keiner Regelmäßigkeit folgen (Schwein-kram, Schwein-s-haxe, Schwein-s-braten oder Schwein-e-braten), aber durchaus Probleme bei der Auflösung von Komposita machen können (Arbeit-s-amt, Arbeit-samt). Diese Eigenschaften von Wörtern lassen sich nicht in allgemeine Regeln fassen, die auf Zeichenketten arbeiten; sie sind von den einzelnen Wörtern abhängig. Deshalb müssen sie in einem Lexikon abgelegt werden, mit dessen Hilfe ein so genanntes Morphologie-Analyse-System den Wortstamm ermitteln kann. Dieses Lexikon muss zumindest teilweise von Hand gepflegt werden, was sehr aufwändig sein kann. Lexikonbasierte Morphologie-Analyse-Systeme können entweder mit einem Vollformenlexikon, bei dem zu jeder möglichen Form der Stamm aufgeführt wird, implementiert werden oder mit einem Wortstammlexikon. Im letzteren Fall werden zu jedem Stamm nur so viele Daten gespeichert, dass alle Wortformen generiert werden können. Dazu werden verschiedene Flexionsklassen unterschieden und Besonderheiten vermerkt. In "Morphy", einem einfachen Morphologie-Analyse-Programm mit Stammformenlexikon von Lezius (1995) [->] (siehe auch Lezius, Rapp und Wettler, 1998 [->] ) wird z.B. für ein Substantiv gespeichert, in welche der 62 verschiedenen Deklinationsklassen es fällt (dadurch ist auch das Genus bestimmt), und ob (nach alter Rechtschreibung) bei der Pluralbildung ein ß/ss-Wechsel oder eine Vokalumlautung stattfindet. Bei einem ß/ss-Wechsel wird das erste von rechts vorkommende "ß" durch "ss" ersetzt oder umgekehrt, bei der Vokalumlautung der erste von rechts vorkommende umlautbare Vokal durch seinen Umlaut. Während die zeichenmusterbasierte Grundformenreduktion im Wesentlichen nur erlaubt, vorhandene Formen auf Grundformen abzubilden, können mit den lexikonbasierten Verfahren zu einer Grundform bestimmte oder auch alle Wortformen konstruiert werden. Die Reduktion auf lexikalische Grundformen wird in "Morphy" nach dem Prinzip "Lemmatisierung durch Generierung" durchgeführt. Dazu wird folgendermaßen vorgegangen:
Abbildung 18: Flexionsanalyse nach Lezius | |||||||||||||
| |||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.