Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren -> Kookurrenzverfahren
Stichwörter dieser Seite Term-Term-Matrix
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5.2.7: Eine Untersuchung zur Bestimmung von Suchtermen

In einer Untersuchung von Ferber, Wettler und Rapp (1995) [->] wurden aus Dokumenten der Datenbank PsycLIT-Kookurrenzdaten erhoben und mit Formel (200 ) Ähnlichkeiten zwischen den Termen eines Vokabulars aus 872 Termen berechnet. Das Vokabular stammte aus 94 Protokollen von Anfragen an die Zentralstelle für psychologische Information und Dokumentation in Trier. Diese Protokolle enthielten schriftliche, natürlich-sprachliche Anfragen und die Datenbanksuchen, die die professionellen Recherchierenden der Zentralstelle dazu durchgeführt hatten. Ziel der Untersuchung war es, aus den schriftlichen Anfragen mit den Ähnlichkeitsmaßen die Terme vorherzusagen, die die Recherchierenden in den Anfragen verwendet hatten. Zusätzlich wurde die Anzahl der Dokumente, aus denen die Kookurrenzdaten erhoben wurden, systematisch zwischen 20 000 und 246 889 variiert.

Zur Vorhersage der Terme wurde zunächst zu jeder Anfrage ein Anfragevektor konstruiert, in den als Gewicht eines Terms seine Häufigkeit in der schriftlichen Anfrage eingetragen wurde. Dieser Vektor wurde dann mit der Term-Term-Matrix, die die Ähnlichkeiten enthielt, multipliziert. Dann wurden die Terme nach ihren Werten im resultierenden Vektor in eine Rangfolge gebracht.

Zur Auswertung wurden bezüglich dieser Rangfolge die mittleren Rangplätze der Terme ermittelt,

  • die sowohl in der Anfrage als auch in der Recherche vorkamen (IN-IN),
  • die nur in der Anfrage, nicht aber in der Recherche vorkamen (IN-OUT), und
  • die nur in der Recherche, nicht aber in der Anfrage vorkamen, die also vom Recherchierenden neu gewählt wurden (OUT-IN).
Zusätzlich wurde ein Overlap-Maß verwendet, das die Überschneidung zwischen den Termen, die die Recherchierenden verwendet hatten, und der gleichen Anzahl von Termen an der Spitze der Rangfolge misst. Ein ganz ähnliches Maß wurde in einer Studie von Saracevic und Kantor (1988) [->] dazu verwendet, die Übereinstimmung der Wortwahl zwischen verschiedenen Recherchierenden zu messen. Sie erhielten - mit anderem Material - eine mittlere Übereinstimmung von 0,27 .

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 92: Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche

Die Ergebnisse dieser Studie sind in Abbildung 92 angegeben. Sie zeigen gerade bei den neu gewählten Termen eine Abhängigkeit der Ergebnisse von der Größe der zugrunde gelegten Dokumentensammlung. Außerdem zeigen sie, dass der Overlap nicht schlechter ist als der (etwas anders berechnete) Overlap bei den Experimenten von Saracevic und Kantor (1988) [->] .

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren -> Kookurrenzverfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5.2.7Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 92 Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche
Term-Term-Matrix Term-Term-Matrix

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.