ZURÜCK

6: Wissensextraktion im Information Retrieval

Im probabilistischen Ansatz und bei der Implementierung des Inferenznetzes wurde angenommen, dass das Auftreten von Termen in der Sprache unabhängig ist; d. h. es wurde angenommen, dass die Wahrscheinlichkeit, zwei Terme im selben Dokument zu finden, nur von deren globalen Auftretenswahrscheinlichkeiten abhängt und nicht von ihrer jeweiligen "Bedeutung". Diese Annahme scheint im Allgemeinen recht unrealistisch (vergleiche Abbildung 6 ). Sie wurde gemacht, um Berechnungs- bzw. Schätzmöglichkeiten für andere Wahrscheinlichkeiten zu haben; ohne sie hätten keine Werte für die in den jeweiligen Ansätzen gesuchten Wahrscheinlichkeiten geschätzt werden können. Allerdings können bei starken Vereinfachungen die Schätzwerte unrealistisch werden (Cooper 1991 [->]).

ZUGANGAbb. 77: Aus dem Lob - und dem Brown-Korpus mit Kookurrenzdaten berechnete Assoziationen zu drei Termen

Einige der bisher beschriebenen Methoden und Verfahren können als Ansätze gesehen werden, die Unabhängigkeitsannahmen zu umgehen und Abhängigkeiten zwischen Termen zur Verbesserung des Retrievals zu nutzen. So kann die Grund- oder Stammformenreduktion als der Versuch aufgefasst werden, verschiedene Wörter auf einen Term abzubilden und sie damit quasi per Definition als identisch zu betrachten, was zur Folge hat, dass sie in diesem Sinne immer zusammen auftreten. Den gleichen Ansatz verfolgt man mit der Definition von Synonymmengen bei der Konstruktion eines Thesaurus.

Auch das pseudo Relvanz-Feedback kann als Weg interpretiert werden, die Unabhängigkeitsannahme zu vermeiden. Man nimmt an, dass Terme die in einem Dokument vorkommen das zu einer Anfrage ählich ist, ebenfalls zu der Anfrage ähnlich sind und diese daher sinnvoll erweitern können. Dabei wird als Referenz lediglich eine kleine Auswahl der Dokumente in denen eine Term vorkommt verwendet.

ZUGANG6.1: Korpusbasierte Verfahren

ZUGANG6.2: Gewichtungsmethoden Lernen

ZUGANG6.3: Social Filtering


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber