ZURÜCK

6.1.2.8: Komplexere Kookurrenzverfahren

Andere Untersuchungen, die mit Kookurrenzdaten arbeiten, verwenden kompliziertere Attribute als nur das Auftreten von Termen in Dokumenten. Grefenstette (1992 [->]) und Ruge (1992 [->]) verwenden eine grobe syntaktische Analyse zur Bestimmung der Kookurrenz. Dabei werden nur Wörter in bestimmten syntaktischen Positionen berücksichtigt.

In einem ähnlichen Ansatz verwenden Jing und Croft (1994 [->]) Satzteile ("phrases"), die einer bestimmten Regel genügen. Eine einfache Regel für einen Satzteil (noun-phrase) wäre z. B. {N,NN,NNN} , d. h., dass ein einzelnes Hauptwort der Regel genügt, oder auch zwei oder drei unmittelbar hintereinander stehende Hauptwörter (im englischen enspricht diese Regel zum Teil unserer Kompositionsregel für Substantive: Immigration officer = Grenzbeamter). Eine andere Regel wäre {JNN,JNNN} , wobei J für ein Adjektiv steht.

Zwischen den Termen und den Satzteilen, die in einem Satz gefunden werden, werden Assoziationen gebildet, indem die Auftretenshäufigkeiten miteinander multipliziert werden. Diese Assoziationen werden zu einem assoziativen Thesaurus zusammengefasst. Um dieses Verfahren anzuwenden, muss für die einzelnen Terme bestimmt werden, um was für eine Wortart es sich handelt. Experimentelle Studien haben für einige Dokumentsammlungen bei der Verwendung des assoziativen Thesaurus zur Query Expansion Verbesserungen der Ergebnisse gegenüber dem Retrieval ohne Expansion gezeigt (Jing und Croft 1994 [->]).


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber