3.4.5.1: Automatische Indexierung
Bei der automatischen Indexierung wird folgendermaßen
vorgegangen:
- Aus dem Text werden die Wörter isoliert.
- Stopwörter werden entfernt.
- Die verbliebenen Wörter werden auf ihre Stammformen
reduziert. Dazu wird ein auf Ersetzungsregeln basierender
Stemmer verwendet, aber andere Verfahren können auch eingesetzt
werden.
- Gleiche Stämme werden zusammengefasst.
- Die so gewonnenen Terme werden gewichtet bzw. ersetzt.
Im letzten Punkt geschieht folgendes:
- Terme mit mittlerer Häufigkeit werden gewichtet, z. B. mit
der Formel

- sehr häufige Terme werden durch Termpaare ersetzt.
Dabei werden Paare mit allen anderen Termen, die in einem
vorgegebenen Abstand vorkommen, gebildet. Doppelte Paare und Paare, die aus zwei identischen
Wörtern bestehen, werden entfernt. Die Gewichte für die Paare werden aus den
Häufigkeiten der einzelnen Paarelemente berechnet.
- Bei sehr seltenen Termen wird versucht, mit Hilfe von Thesauren zu
Oberbegriffen überzugehen oder sie mit Hilfe von Clusterverfahern durch eine ganze
Gruppe verwandter Terme zu ersetzen.
© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber