| ||||||||||||
3.2: Der probabilistische Retrieval-AnsatzDie Information-Retrieval-Modelle aus Kapitel 1.3 lassen sich als einfache Systeme aus Mengen, Transformationen, Attributen und Ähnlichkeitsfunktionen darstellen. Sie verwenden Verfahren, mit denen bestimmte Teilmengen der Dokumentmenge und Ähnlichkeitsrangfolgen zu einer Anfrage bestimmt werden können, gehen aber nicht von einem ausgearbeiteten Modell der Informationssuche aus. Im Folgenden soll ein weiter ausgearbeitetes probabilistisches Modell vorgestellt werden, wie es in Fuhr und Buckley (1991) [->] und Fuhr (1995) [->] zu finden ist. In der Einleitung war darauf hingewiesen worden, dass Information Retrieval im Gegensatz zum Fakten-Retrieval immer nur nach relativ besten Lösungen oder Antworten suchen kann und im Allgemeinen keine eindeutige beste Lösung existiert. Daher liegt es nahe, IR mit einem probabilistischen Ansatz zu modellieren. Die diesem Ansatz zugrunde liegende Frage kann folgendermaßen formuliert werden: Wie groß ist die Wahrscheinlichkeit, dass ein gegebenes Dokument d für eine Anfrage q als relevant eingeschätzt wird? Wäre diese Wahrscheinlichkeit für jede Anfrage und für alle Dokumente bekannt, könnte man alle Dokumente danach sortieren und die mit der größten Wahrscheinlichkeit ausgeben. Da diese Wahrscheinlichkeit nicht unmittelbar zugänglich ist, kann man versuchen, sie zu schätzen. Dazu müssen die Dokumente und Anfragen weiter untersucht werden und entsprechende Vereinfachungen und Unabhängigkeitsannahmen gemacht werden. 3.2.1: Wahrscheinlichkeiten in endlichen Mengen3.2.2: Abschätzung des Retrieval-Status-Werts3.2.3: Die Robertson-Sparck-Jones-FormelDas Verwenden von Trainingsmengen bzw. von (Pseudo-)Relevance-Feedback-Daten macht - in einer theoretischen Perspektive - aus der Gewichtungsfunktion eine Lernaufgabe: Es werden solche Terme stärker gewichtet, die sich in anderen Beispielen als gute Indikatoren für die Relevanz eines Dokuments zu einer Anfrage bewährt haben. Anders ausgedrückt: Das System lernt, welche Terme es verwenden muss, um gute Suchergebnisse zu erzielen. | ||||||||||||
| ||||||||||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.