Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Zeichenketten, Wörter und Konzepte
Stichwörter dieser Seite Verfugung, Morphologie-Analyse-System, Hochfrequenzwörterbuch, Flexionsanalyse, Kompositionsanalyse
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.2.3: Lexikonbasierte Morphologie-Analyse

Probleme bereiten im Deutschen die vielfältigen Veränderungen - auch des Wortstamms. So werden nicht nur am Ende Suffixe angehängt, wie bei des Hauses, sondern es werden Umlaute eingefügt (Apfel - Äpfel, alt - älter, Kuss - Küsse) und Präfixe vorangestellt (laufen - gelaufen). Vor der Rechtschreibreform mussten am Wortende auch noch "ß" und "ss" ausgetauscht werden. Bei den Präfixen muss zudem unterschieden werden, ob das Präfix abgetrennt werden kann (mitbringen: er brachte den Brief mit; nicht: er mitbrachte den Brief) oder nicht (überbringen: sie überbrachte den Brief; nicht: sie brachte den Brief über). Abgetrennte Präfixe können die Bedeutung eines Worts auch verändern (Professorin Mayer schlug ihren Assistenten (für die Stelle vor)).

Besondere Probleme macht auch die Tatsache, dass im Deutschen häufig Komposita gebildet werden, indem mehrere Substantive, Adjektive, Adverbien und auch Verben zu einem neuen Wort zusammengefügt werden. Dabei werden verschiedene "Verfugungen" verwendet, die keiner Regelmäßigkeit folgen (Schwein-kram, Schwein-s-haxe, Schwein-s-braten oder Schwein-e-braten), aber durchaus Probleme bei der Auflösung von Komposita machen können (Arbeit-s-amt, Arbeit-samt).

Diese Eigenschaften von Wörtern lassen sich nicht in allgemeine Regeln fassen, die auf Zeichenketten arbeiten; sie sind von den einzelnen Wörtern abhängig. Deshalb müssen sie in einem Lexikon abgelegt werden, mit dessen Hilfe ein so genanntes Morphologie-Analyse-System den Wortstamm ermitteln kann. Dieses Lexikon muss zumindest teilweise von Hand gepflegt werden, was sehr aufwändig sein kann.

Lexikonbasierte Morphologie-Analyse-Systeme können entweder mit einem Vollformenlexikon, bei dem zu jeder möglichen Form der Stamm aufgeführt wird, implementiert werden oder mit einem Wortstammlexikon. Im letzteren Fall werden zu jedem Stamm nur so viele Daten gespeichert, dass alle Wortformen generiert werden können. Dazu werden verschiedene Flexionsklassen unterschieden und Besonderheiten vermerkt. In "Morphy", einem einfachen Morphologie-Analyse-Programm mit Stammformenlexikon von Lezius (1995) [->] (siehe auch Lezius, Rapp und Wettler, 1998 [->] ) wird z.B. für ein Substantiv gespeichert, in welche der 62 verschiedenen Deklinationsklassen es fällt (dadurch ist auch das Genus bestimmt), und ob (nach alter Rechtschreibung) bei der Pluralbildung ein ß/ss-Wechsel oder eine Vokalumlautung stattfindet. Bei einem ß/ss-Wechsel wird das erste von rechts vorkommende "ß" durch "ss" ersetzt oder umgekehrt, bei der Vokalumlautung der erste von rechts vorkommende umlautbare Vokal durch seinen Umlaut.

Während die zeichenmusterbasierte Grundformenreduktion im Wesentlichen nur erlaubt, vorhandene Formen auf Grundformen abzubilden, können mit den lexikonbasierten Verfahren zu einer Grundform bestimmte oder auch alle Wortformen konstruiert werden. Die Reduktion auf lexikalische Grundformen wird in "Morphy" nach dem Prinzip "Lemmatisierung durch Generierung" durchgeführt. Dazu wird folgendermaßen vorgegangen:

  • Suche nach der Wortform in einer kleinen Liste, die die häufigsten Wortformen mit ihren Grundformen enthält (Hochfrequenzwörterbuch). Wird das Wort gefunden, ist die Lemmatisierung beendet.
  • Flexionsanalyse: Sukzessive werden die letzen Buchstaben abgeschnitten und die verbleibende Zeichenkette im Stammformenlexikon gesucht. Wird ein Stamm gefunden, wird untersucht, ob damit die Wortform generiert werden kann. Bei der Suche im Stammformenlexikon werden die beim jeweiligen Stamm zugelassenen Umwandlungen (ß/ss, Umlautung) berücksichtigt (also gegebenenfalls in der Wortform rückgängig gemacht). Es werden alle Stämme geprüft, um bei Wortformen, die auf mehrere Stämme aus dem Lexikon zurückgeführt werden können, alle diese Stämme zu finden. Werden Grundformen gefunden, werden sie mit der Wortklassenzugehörigkeit ausgegeben, und die Lemmatisierung ist beendet (siehe Abbildung 18 ).
  • Kompositionsanalyse: Es werden von rechts rekursiv die jeweils längsten Wortformen abgeschnitten, die im Lexikon gefunden werden. Lässt sich das Wort so in Teilwörter zerlegen, wird es als Kompositum bezeichnet und die Lemmatisierung beendet.
  • Konnte das Wort nicht lemmatisiert werden, wird auf der Basis einer empirischen Häufigkeitstabelle für Endungen eine Vermutung über die Wortklassenzugehörigkeit ausgegeben.
Lexikonbasierte Morphologie-Analyse-Programme sind natürlich erheblich aufwändiger als die Grundformenreduktion mit zeichenmusterbasierten Ersetzungsregeln. Sie bieten dafür aber erheblich mehr und genauere Informationen über die untersuchten Wortformen. Insbesondere für Verfahren, die nicht nur isolierte Wörter, sondern auch Wörter im (syntaktischen) Satzzusammenhang auswerten, sind diese zusätzlichen Informationen über die Wortform nützlich oder sogar zwingend notwendig. So gibt es auch für das Englische lexikonbasierte Morphologie-Analyse-Programme.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 18: Flexionsanalyse nach Lezius

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Zeichenketten, Wörter und Konzepte
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.2.3Lexikonbasierte Morphologie-Analyse
Abb. 18 Flexionsanalyse nach Lezius
Verfugung, Morphologie-Analyse-System, Hochfrequenzwörterbuch, Flexionsanalyse, Kompositionsanalyse Flexionsanalyse, Hochfrequenzwörterbuch, Kompositionsanalyse, Morphologie-Analyse-System, Verfugung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.