Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren
Stichwörter dieser Seite MMM-Modell, Dokumentvektor, Durchschnitt, Testkollektion
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.1.1: Das MMM-Modell

Im Mixed-Min-and-Max-Modell (MMM-Modell) (siehe Fox, Betrabet, Koushik und Lee, 1992 [->] in Frakes und Baeza-Yates, 1992 [->] ) werden mit Hilfe der unscharfen elementaren Ergebnismengen Ähnlichkeiten zwischen einem Anfragevektor, der nur die Werte 0 und 1 enthält, und einem Dokumentvektor wi=(wi,1,...,wi,n) mit Einträgen zwischen 0 und 1 berechnet.

Die Autoren betrachten so genannte AND-Anfragen als unscharfe Versionen von booleschen Anfragen, bei denen alle Anfrageterme mit AND verknüpft sind, und so genannte OR-Anfragen als unscharfe Versionen von booleschen Anfragen, bei denen sie mit OR verknüpft sind. Zerlegt man den Anfragevektor in elementare Anfragevektoren, die jeweils genau eine 1 qj und an allen anderen Stellen eine 0 enthalten, steht in den unscharfen elementaren Ergebnismengen für das Dokument di der Vektoreintrag wi,j aus dem Dokumentvektor. Für eine AND-Anfrage wird analog zum Durchschnitt der elementaren Ergebnismengen beim booleschen Vorgehen das Minimum über die Einträge gewählt, bei einer OR-Anfrage in Analogie zur Vereinigung das Maximum.

Im MMM-Verfahren wird dieser Ansatz gewählt, um Ähnlichkeitswerte zwischen einem Dokument und einer Anfrage zu bestimmen. Dazu können "AND-Anteil" und "OR-Anteil" mit Hilfe des Parameters cMathematisches Zeichen: Element von[0,1] "gemischt" werden:

(126)
s (wi,q) =c·
max
j=1...n,qj =1
(wi,j) + (1-c) ·
min
j=1...n,qj=1
(wi,j )
Der Parameter c kann entsprechend der Fragestellung gesetzt, durch Experimente mit einer Testkollektion bestimmt oder den Nutzenden als "Regler" zur Verfügung gestellt werden.

Der erste Summand in der Formel - der "OR-Anteil" der Ähnlichkeit - wird groß, wenn der Dokumentvektor für einen Anfrageterm einen großen Wert annimmt. Der zweite Summand - der "AND-Anteil" der Ähnlichkeit - wird nur groß, wenn der Dokumentvektor für alle Anfrageterme große Werte aufweist. Die Formel berücksichtigt also jeweils höchstens zwei Gewichte aus einem Dokumentvektor bzw. Terme aus einem Dokument, den Term der Anfrage mit dem kleinsten Gewicht im Dokumentvektor für den AND-Anteil und den mit dem größten Gewicht für den OR-Anteil. Lässt man als Werte des Dokumentvektors nur 0 und 1 zu, erhält man für das Maximum und das Minimum in Formel (126 ) die Funktionen (6 ) und (5 ), die in Abschnitt 1.3.6.2 über boolesches Retrieval und das Vektorraummodell definiert wurden. Man sieht, dass die Herleitung über die Theorie unscharfer Mengen nur eine mögliche Interpretation der Formel (126 ) ist. Man kann sie auch als Ähnlichkeitsformel interpretieren.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.1.1Das MMM-Modell
MMM-Modell, Dokumentvektor, Durchschnitt, Testkollektion Dokumentvektor, Durchschnitt, MMM-Modell, Testkollektion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.