Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell
Stichwörter dieser Seite boolesches Retrieval, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.6.2: Vektorraummodell und boolesches Retrieval

In diesem Modell kann man auch einfache Anfragen des booleschen Retrieval als Spezialfälle darstellen. Dadurch lässt sich der Zusammenhang zwischen den beiden Verfahren verdeutlichen. Dazu erlaubt man als Gewichte nur die Werte 0 und 1 , man verwendet also wiMathematisches Zeichen: Element von{0,1} n , wobei wi,j=1 gilt, wenn Term j im Dokument i auftritt, und wi,j=0 bedeutet, dass Term j im Dokument i nicht auftritt.

Dasselbe Verfahren verwendet man, um eine Anfrage zu repräsentieren: An den Stellen der Terme, die in der Anfrage vorkommen, wird in einem Anfragevektor qMathematisches Zeichen: Element von{0,1}n eine 1 gesetzt, an den anderen Stellen eine 0 . Wenn alle Terme der Anfrage mit AND verknüpft waren, sind die zur Anfrage gehörenden Dokumente genau die, bei denen an allen Stellen, an denen im Anfragevektor eine 1 steht, auch im Dokumentvektor eine 1 steht.

Sind alle Terme der Anfrage mit OR verknüpft, wird eine andere Ähnlichkeitsfunktion verwendet: Ein Dokument gehört bereits zur Anfrage, wenn an einer einzigen Stelle, an der im Anfragevektor eine 1 steht, auch im Dokumentvektor eine 1 steht.

Man kann diese Operationen mit Hilfe des Skalarprodukts der Vektoren definieren:

Pfeil als Kennzeichnung einer Unterueberschrift Definition 5: Skalarprodukt

Die Bearbeitung einer aus r durch AND verknüpften Termen bestehende Anfrage kann jetzt mit Hilfe des Skalarprodukts so ausgedrückt werden: Das Dokument mit dem Gewichtsvektor wi=(wi,1,...,wi,n )Mathematisches Zeichen: Element von{0,1} n gehört zur Anfrage q=(q1,...,qn) Mathematisches Zeichen: Element von{0,1}n , wenn wi·q=r gilt. Formal lässt sich das so schreiben:

(5)
sAND (wi,q) = {
1 falls wi· q=
n
Mathematisches Zeichen: Summe
k=1
qk
0 sonst
Die Antwortmenge definiert sich über das für q spezifische Attribut SAND,q(wi) :=sAND(wi,q) als DAND,q=S-1AND,q( {1}) . Entsprechend gehört ein Dokument mit dem Gewichtsvektor wi=(wi,1,...,wi,n )Mathematisches Zeichen: Element von{0,1} n zu einer aus r durch OR verknüpften Termen bestehenden Anfrage, wenn wi·q>=1 gilt:
(6)
sOR (wi,q) = {
1 falls wi· q>=1
0 sonst
Die Antwortmenge ergibt sich über das Attribut SOR,q(wi) =sOR(wi,q) als DOR,q=S-1OR,q({ 1}) .

Diese Darstellung des booleschen Retrieval im Vektorraummodell ist allerdings nur für die einfachen Anfragen möglich, bei denen alle Terme mit AND oder alle Terme mit OR verknüpft sind. Anfragen, in denen sowohl AND-Verknüpfungen als auch OR-Verknüpfungen vorkommen und die eventuell noch durch Klammern komplex geschachtelt sind, lassen sich nicht so einfach darstellen. Ihre Modellierung mit unscharfen Mengen wird in Kapitel 3.1 beschrieben.

Die Darstellungen der einfachen booleschen Operationen in den Gleichungen (5 ) und (6 ) bestehen also im Kern aus dem Skalarprodukt und einer Schwellwertfunktion, die die Aufgabe hat, aus einem reellwertigen (bzw. ganzzahligen) Ergebnis das gewünschte binäre Resultat zu erzeugen. Bei AND ist die Schwelle maximal, bei OR ist sie minimal.

Lässt man die Schwellwertfunktion weg, erhält man einen durch das Skalarprodukt gegebenen Ähnlichkeitswert. Er gibt an, wie viele Terme sowohl in der Anfrage als auch im jeweiligen Dokument vorkommen. Nach den Ähnlichkeitswerten können die Dokumente in eine Rangfolge gebracht werden; dabei stehen die Dokumente, die viele Terme aus der Anfrage enthalten, weit oben in der Rangfolge und die, die nur wenigen Anfrageterme enthalten, an deren Ende.

Die Ausgabe der Resultate in einer solchen Rangfolge ist in einem Information-Retrieval-System im Allgemeinen sehr viel nützlicher als eine Ausgabe als ungeordnete Menge, besonders wenn viele Treffer gefunden wurden. Sie bietet den Nutzenden zuerst die in diesem Maß als am wichtigsten eingeschätzten Dokumente an und sortiert als weniger wichtig eingeschätzte Dokumente ans Ende der Ausgabe. Für die Nützlichkeit eines solchen Systems zur Lösung einer Aufgabe ist es aber entscheidend, dass diese Sortierung den Einschätzungen der Nutzenden entspricht, da erwartet werden muss, dass Nutzende nach einer Reihe von für sie unwichtigen Treffern die weiteren Dokumente nicht mehr beachten.

Die geschilderten Verfahren zur Berechnung der Ähnlichkeit sind natürlich nicht auf Vektoren beschränkt, in denen nur die Werte 0 und 1 vorkommen. Das Skalarprodukt kann auch mit reellen Zahlen berechnet werden, also für Dokument- und Anfragevektoren aus Rn . In diesem Fall können die Rangfolgen feiner untergliedert sein als bei ganzen Zahlen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.6.2Vektorraummodell und boolesches Retrieval
Def. 5 Skalarprodukt
boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt boolesches Retrieval, Rangfolge, Schwelle, Schwellwertfunktion, Skalarprodukt, Skalarprodukt, Skalarprodukt

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 17-11-2003 erzeugt.