3.2.1.1: Lexikographische Grundformenreduktion nach Kuhlen
Kuhlen gibt ein Regelwerk an, mit dem die meisten
englischen Wörter auf ihre formale bzw. lexikographische Grundform
oder die Stammform zurückgeführt werden können. Dabei
bezeichnet er (Seite 57) als
-
lexikographische
Grundform die Form, in der das Wort in einem
Wörterbuch zu finden ist. Die durch Flexion
möglicherweise entstandenen graphematischen Veränderungen der
Grundformen werden rückgängig gemacht d. h. die Wörter
werden deflektiert und anschließend
rekodiert.
-
formale Grundform
" ... Wortfragmente, bei denen die 'normalen' englischen und
fremdsprachigen (hauptsächlich lateinischen) Flexionsendungen
abgetrennt werden, ohne dass die entstandenen Wortfragmente rekodiert
würden."
-
Stammform nach linguistischen
Prinzipien die Zeichenketten, die durch Deflexion
und Abtrennen von Derivationsendungen entstehen. Diese
Zeichenketten sollen soweit wie möglich durch Rekodierung
vereinheitlicht werden.
Als Beispiel sind in Abbildung
_15_
die verschiedenen Formen der Wörter
mit der Stammform ABSORB angegeben. Einige der Regeln sind in Abbildung
16
angegeben; Abbildung
17
zeigt ein Beispiel für die
Reduktion.
Die Evaluierung seines
Algorithmus' fasst Kuhlen folgendermaßen zusammen (S.
11): "Mit 95% Wahrscheinlichkeit ist zu
erwarten, dass die Fehlerquote bei einem Fachtext von ca.
72 000 unterschiedlichen
Wörtern nicht mehr als 0.5% ausmachen wird."
Die Reduktionsquote liegt bei diesem Korpus bei
13% für die lexikographische Grundformenreduktion und bei 27,3%
für die Stammformenreduktion; d. h. die Anzahl verschiedener Wörter im Korpus
verringert sich um die genannten Prozentsätze, wenn alle
Wörter durch ihre Grundformen bzw. Stammformen ersetzt
werden.
© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber