4.4.2.2: Anwendung im IR
Mit den Ähnlichkeitsmaßen lassen sich verschiedene
Schritte des Information Retrieval unterstützen.
- Ähnlichkeitsmaße können eingesetzt
werden, um einen
themenspezifischen
assoziativen
Thesaurus zu generieren. Dazu können zu
jedem Term die anderen Terme bezüglich ihrer Ähnlichkeit in
eine Rangfolge gebracht werden. Als assoziativ verwandte Terme
können dann alle Terme, deren Ähnlichkeit eine Schwelle
überschreitet, angenommen werden. Eine andere Wahl wäre eine
feste Anzahl von Termen mit den höchsten Gewichten.
Dieser Thesaurus kann Indexierenden und Anfragenden zur Verfügung
gestellt werden, um weitere zu einer Anfrage verwandte Terme
auszusuchen.
- Die Ähnlichkeiten können auch direkt
beim
Indexierungsprozeß verwendet
werden, um eine Menge von Termen, die von
Hand oder mit anderen Verfahren ermittelt wurde, um
weitere Terme zu erweitern.
- Analog können die Ähnlichkeiten genutzt
werden, um die Terme einer
Anfrage
mit weiteren ähnlichen Termen zu
ergänzen
(
Query Expansion), und die
Anfrage entsprechen breiter zu machen.
Die beiden letztgenannten Möglichkeiten der automatischen
Verwendung von ähnlichen Termen haben in diversen Untersuchungen
nicht zu signifikanten Verbesserungen der Retrievalergebnisse
geführt (vergl. Peat und Willet 1991 [->]). Allerdings lassen sich
dafür durchaus auch mögliche Gründe in den jeweiligen
Untersuchungen finden.
© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber