ZURÜCK

4.2: Der probabilistische Retrieval Ansatz

In Teil waren einfache Modelle des Information Retrieval als Systeme aus Mengen, Transformationen, Attributen und Ähnlichkeitsfunktionen dargestellt worden. Dabei wurden Verfahren, mit denen bestimmte Teilmengen der Dokumentmenge, bzw. Ähnlichkeitsrangfolgen zu einer Anfrage bestimmt werden können, vorgestellt. Es wurde aber kein ausgearbeitetes Modell der Informationssuche konstruiert. Im folgenden soll ein etwas weiter ausgearbeitetetes probabilistisches Modell vorgestellt werden, wie es in Fuhr (1995 [->]) zu finden ist.

In der Einleitung war darauf hingewiesen worden, dass Information Retrieval im Gegensatz zu Faktenretrieval immer nur nach relativ besten Lösungen oder Antworten suchen kann und im Allgemeinen keine eindeutige beste Lösung existiert. Daher liegt es nahe, IR mit einem probabilistischen Ansatz zu modellieren.

Die diesem Ansatz zugrundeliegende Frage kann folgendermaßen formuliert werden:

Wie groß ist die Wahrscheinlichkeit, dass ein gegebenes Dokument d für eine Anfrage q als relevant eingeschätzt wird.

Hätte man diese Wahrscheinlichkeit für jede Anfrage und für alle Dokumente, könnte man alle Dokumente danach sortieren und die mit der größten Wahrscheinlichkeit ausgeben. Da diese Wahrscheinlichkeit aber nicht unmittelbar zugänglich ist, kann man versuchen, sie zu schätzen. Dazu müssen die Dokumente und die Anfragen weiter untersucht werden und entsprechende Vereinfachungen und Unabhängigkeitsannahmen gemacht werden.

ZUGANG4.2.1: Wahrscheinlichkeitsrechnung in endlichen Mengen

ZUGANG4.2.2: Abschätzung des Retrievalstatuswerts nach Fuhr

ZUGANG4.2.3: Robertson - Spark Jones Formel


ZURÜCK

© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber