| |||||||||||||||||||||||
1.3.6.2: Vektorraummodell und boolesches RetrievalIn diesem Modell kann man auch einfache Anfragen des booleschen Retrieval als Spezialfälle darstellen. Dadurch lässt sich der Zusammenhang zwischen den beiden Verfahren verdeutlichen. Dazu erlaubt man als Gewichte nur die Werte 0 und 1 , man verwendet also wi{0,1} n , wobei wi,j=1 gilt, wenn Term j im Dokument i auftritt, und wi,j=0 bedeutet, dass Term j im Dokument i nicht auftritt. Dasselbe Verfahren verwendet man, um eine Anfrage zu repräsentieren: An den Stellen der Terme, die in der Anfrage vorkommen, wird in einem Anfragevektor q{0,1}n eine 1 gesetzt, an den anderen Stellen eine 0 . Wenn alle Terme der Anfrage mit AND verknüpft waren, sind die zur Anfrage gehörenden Dokumente genau die, bei denen an allen Stellen, an denen im Anfragevektor eine 1 steht, auch im Dokumentvektor eine 1 steht. Sind alle Terme der Anfrage mit OR verknüpft, wird eine andere Ähnlichkeitsfunktion verwendet: Ein Dokument gehört bereits zur Anfrage, wenn an einer einzigen Stelle, an der im Anfragevektor eine 1 steht, auch im Dokumentvektor eine 1 steht. Man kann diese Operationen mit Hilfe des Skalarprodukts der Vektoren definieren: Definition 5: SkalarproduktDie Bearbeitung einer aus r durch AND verknüpften Termen bestehende Anfrage kann jetzt mit Hilfe des Skalarprodukts so ausgedrückt werden: Das Dokument mit dem Gewichtsvektor wi=(wi,1,...,wi,n ){0,1} n gehört zur Anfrage q=(q1,...,qn) {0,1}n , wenn wi·q=r gilt. Formal lässt sich das so schreiben:
Diese Darstellung des booleschen Retrieval im Vektorraummodell ist allerdings nur für die einfachen Anfragen möglich, bei denen alle Terme mit AND oder alle Terme mit OR verknüpft sind. Anfragen, in denen sowohl AND-Verknüpfungen als auch OR-Verknüpfungen vorkommen und die eventuell noch durch Klammern komplex geschachtelt sind, lassen sich nicht so einfach darstellen. Ihre Modellierung mit unscharfen Mengen wird in Kapitel 3.1 beschrieben. Die Darstellungen der einfachen booleschen Operationen in den Gleichungen (5 ) und (6 ) bestehen also im Kern aus dem Skalarprodukt und einer Schwellwertfunktion, die die Aufgabe hat, aus einem reellwertigen (bzw. ganzzahligen) Ergebnis das gewünschte binäre Resultat zu erzeugen. Bei AND ist die Schwelle maximal, bei OR ist sie minimal. Lässt man die Schwellwertfunktion weg, erhält man einen durch das Skalarprodukt gegebenen Ähnlichkeitswert. Er gibt an, wie viele Terme sowohl in der Anfrage als auch im jeweiligen Dokument vorkommen. Nach den Ähnlichkeitswerten können die Dokumente in eine Rangfolge gebracht werden; dabei stehen die Dokumente, die viele Terme aus der Anfrage enthalten, weit oben in der Rangfolge und die, die nur wenigen Anfrageterme enthalten, an deren Ende. Die Ausgabe der Resultate in einer solchen Rangfolge ist in einem Information-Retrieval-System im Allgemeinen sehr viel nützlicher als eine Ausgabe als ungeordnete Menge, besonders wenn viele Treffer gefunden wurden. Sie bietet den Nutzenden zuerst die in diesem Maß als am wichtigsten eingeschätzten Dokumente an und sortiert als weniger wichtig eingeschätzte Dokumente ans Ende der Ausgabe. Für die Nützlichkeit eines solchen Systems zur Lösung einer Aufgabe ist es aber entscheidend, dass diese Sortierung den Einschätzungen der Nutzenden entspricht, da erwartet werden muss, dass Nutzende nach einer Reihe von für sie unwichtigen Treffern die weiteren Dokumente nicht mehr beachten. Die geschilderten Verfahren zur Berechnung der Ähnlichkeit sind natürlich nicht auf Vektoren beschränkt, in denen nur die Werte 0 und 1 vorkommen. Das Skalarprodukt kann auch mit reellen Zahlen berechnet werden, also für Dokument- und Anfragevektoren aus Rn . In diesem Fall können die Rangfolgen feiner untergliedert sein als bei ganzen Zahlen. | |||||||||||||||||||||||
| |||||||||||||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 17-11-2003 erzeugt.