Der probabilistische Retrieval-Ansatz [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze
Stichwörter dieser Seite	Fakten-Retrieval, Unabhängigkeit, Relevanz
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

3.2: Der probabilistische Retrieval-Ansatz

Die Information-Retrieval-Modelle aus Kapitel 1.3 lassen sich als einfache Systeme aus Mengen, Transformationen, Attributen und Ähnlichkeitsfunktionen darstellen. Sie verwenden Verfahren, mit denen bestimmte Teilmengen der Dokumentmenge und Ähnlichkeitsrangfolgen zu einer Anfrage bestimmt werden können, gehen aber nicht von einem ausgearbeiteten Modell der Informationssuche aus. Im Folgenden soll ein weiter ausgearbeitetes probabilistisches Modell vorgestellt werden, wie es in Fuhr und Buckley (1991) [->] und Fuhr (1995) [->] zu finden ist.

In der Einleitung war darauf hingewiesen worden, dass Information Retrieval im Gegensatz zum Fakten-Retrieval immer nur nach relativ besten Lösungen oder Antworten suchen kann und im Allgemeinen keine eindeutige beste Lösung existiert. Daher liegt es nahe, IR mit einem probabilistischen Ansatz zu modellieren. Die diesem Ansatz zugrunde liegende Frage kann folgendermaßen formuliert werden: Wie groß ist die Wahrscheinlichkeit, dass ein gegebenes Dokument d für eine Anfrage q als relevant eingeschätzt wird?

Wäre diese Wahrscheinlichkeit für jede Anfrage und für alle Dokumente bekannt, könnte man alle Dokumente danach sortieren und die mit der größten Wahrscheinlichkeit ausgeben. Da diese Wahrscheinlichkeit nicht unmittelbar zugänglich ist, kann man versuchen, sie zu schätzen. Dazu müssen die Dokumente und Anfragen weiter untersucht werden und entsprechende Vereinfachungen und Unabhängigkeitsannahmen gemacht werden.

3.2.1: Wahrscheinlichkeiten in endlichen Mengen

3.2.2: Abschätzung des Retrieval-Status-Werts

3.2.3: Die Robertson-Sparck-Jones-Formel

Das Verwenden von Trainingsmengen bzw. von (Pseudo-)Relevance-Feedback-Daten macht - in einer theoretischen Perspektive - aus der Gewichtungsfunktion eine Lernaufgabe: Es werden solche Terme stärker gewichtet, die sich in anderen Beispielen als gute Indikatoren für die Relevanz eines Dokuments zu einer Anfrage bewährt haben. Anders ausgedrückt: Das System lernt, welche Terme es verwenden muss, um gute Suchergebnisse zu erzielen.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

3.2	Der probabilistische Retrieval-Ansatz
3.2.1	Wahrscheinlichkeiten in endlichen Mengen
Def. 23	Endlicher Wahrscheinlichkeitsraum
3.2.1.1	Beispiel: Würfel
Def. 24	Bedingte Wahrscheinlichkeit, Unabhängigkeit
3.2.2	Abschätzung des Retrieval-Status-Werts
Abb. 73	Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts zu einer Anfrage q = (t1,...,t6)
Abb. 74	Neue Dokumente und ihr Retrieval-Status-Wert
3.2.3	Die Robertson-Sparck-Jones-Formel

Fakten-Retrieval, Unabhängigkeit, Wahrscheinlichkeitsraum, endlicher Wahrscheinlichkeitsraum, Wahrscheinlichkeitsfunktion, Grundraum, Ereignis, elementares Ereignis, Elementarereignis, komplementäres Ereignis, Zufallsvariable, Unabhängigkeit, bedingte Wahrscheinlichkeit, Bedingung, unabhängig, bayessche Formel, unabhängig, Relevanz, charakteristische Funktion, Quote, odds, Relevanzurteil, unabhängig, linked dependency assumption, Rangfolge, Retrieval-Status-Wert, retrieval status value, Relevance Feedback, Trainingsmenge, Relevanz, Dokumenthäufigkeit, IDF, Skalarprodukt, Dokumentvektor, Query-Vektor, Relevanz

bayessche Formel, bedingte Wahrscheinlichkeit, Bedingung, charakteristische Funktion, Dokumenthäufigkeit, Dokumentvektor, Elementarereignis, elementares Ereignis, endlicher Wahrscheinlichkeitsraum, Ereignis, Fakten-Retrieval, Grundraum, IDF, komplementäres Ereignis, linked dependency assumption, odds, Query-Vektor, Quote, Rangfolge, Relevance Feedback, Relevanz, Relevanz, Relevanz, Relevanzurteil, retrieval status value, Retrieval-Status-Wert, Skalarprodukt, Trainingsmenge, unabhängig, unabhängig, unabhängig, Unabhängigkeit, Unabhängigkeit, Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsraum, Zufallsvariable

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.