3.2.1.1: Lexikographische Grundformenreduktion nach Kuhlen
Kuhlen gibt ein Regelwerk an, mit dem die meisten englischen
Wörter auf ihre formale bzw. lexikographische Grundform oder die
Stammform zurückgeführt werden können. Dabei bezeichnet
er (Seite 57) als
-
lexikographische
Grundform die Form, in der das Wort in einem
Wörterbuch zu finden ist. Die durch Flexion möglicherweise
entstandenen graphematischen Veränderungen der Grundformen werden
rückgängig gemacht d. h. die Wörter werden deflektiert
und anschließend rekodiert.
-
formale Grundform
" ... Wortfragmente, bei denen die 'normalen' englischen und
fremdsprachigen (hauptsächlich lateinischen) Flexionsendungen
abgetrennt werden, ohne dass die entstandenen Wortfragmente rekodiert
würden."
-
Stammform nach linguistischen
Prinzipien die Zeichenketten, die durch Deflexion
und Abtrennen von Derivationsendungen entstehen. Diese Zeichenketten
sollen soweit wie möglich durch Rekodierung vereinheitlicht
werden.
Als Beispiel sind in Abbildung
_15_
die
verschiedenen Formen der Wörter mit der Stammform ABSORB angegeben.
Einige der Regeln sind in Abbildung
16
angegeben;
Abbildung
17
zeigt ein Beispiel für
die Reduktion.
Die Evaluierung seines Algorithmus' fasst Kuhlen
folgendermaßen zusammen (S. 11): "Mit 95% Wahrscheinlichkeit
ist zu erwarten, dass die Fehlerquote bei einem Fachtext von ca.
72 000 unterschiedlichen
Wörtern nicht mehr als 0.5% ausmachen wird." Die
Reduktionsquote liegt bei diesem Korpus bei 13% für die
lexikographische Grundformenreduktion und bei 27,3% für die
Stammformenreduktion; d. h. die Anzahl verschiedener Wörter im
Korpus verringert sich um die genannten Prozentsätze, wenn alle
Wörter durch ihre Grundformen bzw. Stammformen ersetzt
werden.
© 2000 / HTML-Version 14. 1. 2000: R. Ferber