ZURÜCK

4.4.2.6: Eine Untersuchung zur Bestimmung von Suchtermen

In einer Untersuchung von Ferber, Wettler und Rapp (1995 [->]) wurden aus Dokumenten der Datenbank PsycLIT Kookurrenzdaten erhoben und mit Formel 4.4.2.6 Ähnlichkeiten zwischen den Termen eines Vokabulars aus 872 Termen berechnet. Das Vokabular stammte aus 94 Protokollen von Anfragen an die Zentralstelle für psychologische Information und Dokumentation in Trier. Diese Protokolle enthielten schriftliche, natürlichsprachliche Anfragen und die Datenbanksuchen, die die professionellen Recherchierenden der Zentralstelle dazu durchgeführt hatten. Ziel der Untersuchung war es, aus den schriftlichen Anfragen mit den Ähnlichkeitsmaßen die Terme vorherzusagen, die die Recherchierenden in den Anfragen verwendet hatten. Zusätzlich wurde die Anzahl der Dokumente, aus denen die Kookurrenzdaten erhoben wurden, systematisch zwischen 20 000 und 246 889 variiert.

Zur Vorhersage der Terme wurde zunächst zu jeder Anfrage ein Anfragevektor konstruiert, indem die Werte der Terme auf die Häufigkeit ihres Auftretens in der schriftlichen Anfrage gesetzt wurden. Dieser Vektor wurde dann mit der Term-Term-Matrix mit den Ähnlichkeiten multipliziert und die Terme nach ihren Werten in dem resultierenden Vektor in eine Rangfolge gebracht.

Zur Auswertung wurden bezüglich dieser Rangfolge die mittleren Rangplätze der Terme ermittelt,

Zusätzlich wurde ein Overlapmaß verwendet, das die Überschneidung zwischen den Termen, die die Recherchierenden verwendet hatten, und der gleichen Anzahl von Termen an der Spitze der Rangfolge misst. Ein ganz ähnliches Maß wurde in einer Studie von Sarcevic und Kantor (1988 [->]) dazu verwendet, die Übereinstimmung der Wortwahl zwischen verschiedenen Recherchierenden zu messen. Sie erhielten - mit anderem Material - eine mittlere Übereistimmung von 0.27

ZUGANGAbb. 49: Ergebnisse der Studie zur Simulationen der Wortwahl (Ferber, Wettler & Rapp 1995)

Die Ergebnisse dieser Studie sind in Abbildung _49_ angegeben. Sie zeigen gerade bei den neu gewählten Termen eine Abhängigkeit der Ergebnisse von der Größe der zugrundegelegten Dokumentensammlung. Außerdem zeigen sie, dass der Overlap nicht schlechter ist als der (etwas anders berechnete) Overlap bei den Experimenten von Saracevic und Kantor (1988 [->]).


ZURÜCK

© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber