Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze
Stichwörter dieser Seite Vektorraummodell, Vektorraummodell, Wertebereich, Zugehörigkeitsfunktion, elementare Anfrage, Durchschnitt, Dokumentvektor
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.1: Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren

Die Repräsentation von Dokumenten und Anfragen durch Dokument- und Anfragevektoren kann - wie bereits in Abschnitt 2.4.2 beschrieben - als Darstellung durch unscharfe Mengen, wie sie in der Fuzzy-Set-Theorie definiert wurden, gesehen werden.

Dokument- und Anfragevektoren des Vektorraummodells legen für jeden Term eines Vokabulars ein Gewicht fest. Wenn diese Gewichte nur aus dem Wertebereich [0,1] stammen, werden dadurch unscharfe Mengen über den Termen des Vokabulars definiert. Ganz ähnlich können die Ähnlichkeitswerte der Dokumente zu einer Anfrage als Werte einer Zugehörigkeitsfunktion über der Menge der Dokumente aufgefasst werden, wenn sie nur aus dem Intervall [0,1] stammen. Allerdings sind die Grundmengen verschieden: Bei den Dokument- und Anfragevektoren sind es die Terme des Vokabulars, bei der Ergebnismenge ist es die Menge aller Dokumente.

Beim booleschen Retrieval werden Dokumente und Anfragen als Teilmengen des Vokabulars dargestellt. Der Übergang von der Menge der Terme zu Teilmengen der Dokumentmenge wird durch die Bildung der Ergebnismengen für elementare Anfragen vollzogen: Die elementaren Ergebnismengen enthalten die Dokumente, bei denen die Schnittmenge der Menge ihrer Terme mit der Menge der Terme der Anfrage nicht leer ist. Diese elementaren Ergebnismengen werden dann gemäß der angegebenen Verknüpfungen weiter verarbeitet.

In Analogie zu diesem Vorgehen, kann man einen Anfragevektor in elementare Anfragevektoren zerlegen, die nur an genau einer Stelle einen von 0 verschiedenen Eintrag enthalten. Dem Durchschnitt der Termmengen von Anfrage und Dokument beim booleschen Retrieval entspricht bei unscharfen Mengen das Minimum der Zugehörigkeitsfunktionen von Dokument und Anfrage über der Menge aller Terme. Da die Zugehörigkeitsfunktion einer elementaren Anfrage höchstens für einen Term größer als 0 ist, erhält man als Ähnlichkeitswert zwischen einer elementaren Anfrage und einem Dokument gerade dieses Minimum der Einträge für den Term der elementaren Anfrage. Dieser Wert kann als Zugehörigkeitswert des Dokuments zur unscharfen elementaren Ergebnismenge benutzt werden. Für jedes Paar aus einer elementaren Anfrage und einem Dokumentvektor erhält man so eine unscharfe elementare Ergebnismenge - also eine Zugehörigkeitsfunktion über der Menge der Dokumente. Diese unscharfen Mengen können nach den Regeln der unscharfen Mengen weiterverarbeitet werden (siehe z.B. Salton, Fox und Wu, 1983 [->] ).

Pfeil als Kennzeichnung einer Unterueberschrift 3.1.1: Das MMM-Modell

Pfeil als Kennzeichnung einer Unterueberschrift 3.1.2: Das Paice-Modell

Pfeil als Kennzeichnung einer Unterueberschrift 3.1.3: Das P-Norm-Modell

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.1Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren
3.1.1Das MMM-Modell
3.1.2Das Paice-Modell
3.1.3Das P-Norm-Modell
Vektorraummodell, Vektorraummodell, Wertebereich, Zugehörigkeitsfunktion, elementare Anfrage, Durchschnitt, Dokumentvektor, MMM-Modell, Dokumentvektor, Durchschnitt, Testkollektion, Ähnlichkeitsfunktion, Dokumentvektor, Skalarprodukt, P-Norm-Modell, Dokumentvektor Ähnlichkeitsfunktion, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Durchschnitt, Durchschnitt, elementare Anfrage, MMM-Modell, P-Norm-Modell, Skalarprodukt, Testkollektion, Vektorraummodell, Vektorraummodell, Wertebereich, Zugehörigkeitsfunktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.