ZURÜCK

6.1.2.1: Ein Machine Learning Ansatz

Eine solche Anwendung ist in Apte, Damerau und Weiss (1994 [->]) beschrieben. Hier ging es darum, eingehende Meldungen einer Nachrichtenagentur nach verschiedenen Sachgebieten zu verteilen. Dazu wurden die Meldungen mit einem regelbasierten Verfahren nach verschiedenen Kategorien aufgeteilt. Allerdings wurden dazu lediglich zwischen 30 und 200 Terme, also ein sehr kleines Vokabular, berücksichtigt. Die Anzahl der Kategorien war mit maximal 47 ebenfalls relativ klein. Sie mag für diesen Zweck angemessen sein, für ein Information Retrieval System wäre eine solche Kategorisierung allerdings viel zu grob (bei einer Sammlung von einer Million Dokumenten wären das im Durchschnitt über 20 000 Dokumente pro Kategorie).

Würden mehr Kategorien verwendet, müssten vermutlich auch mehr Terme verwendet werden, um die Kategorien noch trennen zu können, zum anderen müsste ein erheblich größeres Trainingsset verwendet werden. Dann würden sich vermutlich auch Inkonsistenzen im Trainingsset stärker bemerkbar machen.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber