3.4.6.1: Automatische Indexierung
Bei der automatischen Indexierung wird folgendermaßen
vorgegangen:
- Aus dem Text werden die Wörter isoliert.
- Stoppwörter werden entfernt.
- Die verbliebenen Wörter werden auf ihre Stammformen
reduziert. Dazu wird ein auf Ersetzungsregeln basierender Stemmer
verwendet, aber andere Verfahren können auch eingesetzt
werden.
- Gleiche Stämme werden zusammengefasst.
- Die so gewonnenen Terme werden gewichtet bzw. ersetzt.
Im letzten Punkt geschieht folgendes:
- Terme mit mittlerer Häufigkeit werden gewichtet, z. B. mit
der Formel
- sehr häufige Terme werden durch Termpaare ersetzt. Dabei
werden Paare mit allen anderen Termen, die in einem vorgegebenen Abstand
vorkommen, gebildet. Doppelte Paare und Paare, die aus zwei identischen
Wörtern bestehen, werden entfernt. Die Gewichte für die Paare
werden aus den Häufigkeiten der einzelnen Paarelemente
berechnet.
- Bei sehr seltenen Termen wird versucht, mit Hilfe von Thesauren zu
Oberbegriffen überzugehen oder sie mit Hilfe von Clusterverfahern
durch eine ganze Gruppe verwandter Terme zu ersetzen.
© 2000 / HTML-Version 14. 1. 2000: R. Ferber