Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Zeichenketten, Wörter und Konzepte
Stichwörter dieser Seite lexikografische Grundform, formale Grundform, Stammform nach linguistischen Prinzipien
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.2.2: Lexikografische Grundformenreduktion nach Kuhlen

Kuhlen (1977) [->] gibt ein Regelwerk an, mit dem die meisten englischen Wörter auf ihre formale bzw. lexikografische Grundform oder die Stammform zurückgeführt werden können. Dabei bezeichnet er ([->] Seite 57) als

  • lexikografische Grundform die Form, in der das Wort in einem Wörterbuch zu finden ist. Die durch Flexion möglicherweise entstandenen Veränderungen gegenüber der Grundform werden rückgängig gemacht, indem die Wörter deflektiert und anschließend rekodiert werden.
  • formale Grundform " ... Wortfragmente, bei denen die `normalen' englischen und fremdsprachigen (hauptsächlich lateinischen) Flexionsendungen abgetrennt werden, ohne dass die entstandenen Wortfragmente rekodiert würden."
  • Stammform nach linguistischen Prinzipien die Zeichenketten, die durch Deflexion und Abtrennen von Derivationsendungen entstehen. Diese Zeichenketten sollen soweit wie möglich durch Rekodierung vereinheitlicht werden.
Als Beispiel sind in Abbildung 15 die verschiedenen Formen der Wörter mit der Stammform ABSORB angegeben. Einige der Regeln, nach denen die Reduktion durchgeführt wurde, sind in Abbildung 16 angegeben; Abbildung 17 zeigt ein Beispiel für die Reduktion.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 15: Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 16: Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen

Die Evaluierung seines Algorithmus fasst Kuhlen folgendermaßen zusammen (S. 11): "Mit 95% Wahrscheinlichkeit ist zu erwarten, dass die Fehlerquote bei einem Fachtext von ca. 72 000 unterschiedlichen Wörtern nicht mehr als 0,5% ausmachen wird." Die Reduktionsquote liegt bei diesem Korpus bei 13% für die lexikographische Grundformenreduktion und bei 27,3% für die Stammformenreduktion. Das heißt, die Anzahl verschiedener Wörter im Korpus verringert sich um die genannten Prozentsätze, wenn alle Wörter durch ihre Grund- bzw. Stammformen ersetzt werden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 17: Anwendungsbeispiel des Kuhlen-Algorithmus

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Zeichenketten, Wörter und Konzepte
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.2.2Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15 Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16 Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17 Anwendungsbeispiel des Kuhlen-Algorithmus
lexikografische Grundform, formale Grundform, Stammform nach linguistischen Prinzipien formale Grundform, lexikografische Grundform, Stammform nach linguistischen Prinzipien

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.