ZURÜCK

5.1.1.1: Das MMM-Modell

Im "Mixed Min and Max" (MMM) Modell (von Fox, Betrabet, Koushik und Lee [->] (1992) im Buch von Frakes und Baeza - Yates (1992 [->]) dargestellt) werden mit Hilfe der unscharfen elementaren Ergebnismengen Ähnlichkeiten zwischen einem Anfragevektor aus Nullen und Einsen und einem Dokumentvektor wi=(wi,1,...,wi,n) mit Einträgen zwischen 0 und 1 berechnet.

Die Autoren betrachten sogenannte AND Anfragen als unscharfe Versionen von Booleschen Anfragen bei denen alle Anfrageterme mit AND verknüpft sind und sogenannte OR Anfragen als unscharfe Versionen von Booleschen Anfragen bei denen sie mit OR verknüpft sind.

Zerlegt man den Anfragevektor in elementare Anfragevektoren, die jeweils genau eine Eins qj und sonst Nullen enthalten, steht in den unscharfen elementaren Ergebnismengen für das Dokument di der Vektoreintrag wi,j aus dem Dokumentvektor. Für eine AND Anfrage wird analog zum Durchschnitt der elementaren Ergebnismengen beim Booleschen Vorgehen das Minimum über die Einträge gewählt; bei einer OR Anfrage in analogie zur Vereinigung das Maximum.

Im MMM Verfahren wird dieser Ansatz gewählt, um Ähnlichkeitswerte zwischen einem Dokument und einer Anfrage zu bestimmen. Dazu können AND und OR "Anteile" mit Hilfe des Parameters c[0,1] "gemischt" werden.

s(wi,q)=c·maxj=1...n,qj=1(wi,j)+(1-c)·minj=1...n,qj=1(wi,j)

Der Parameter c kann entsprechend der Fragestellung gesetzt, durch Experimente mit einer Testkollektion bestimmt oder als "Regler" den Nutzenden zur Verfügung gestellt werden.

Der erste Summand in der Formel - der "OR-Anteil" der Ähnlichkeit - wird groß, wenn der Dokumentvektor für einen Anfrageterm einen großen Wert annimmt. Der zweite Summand - der "AND-Anteil" der Ähnlichkeit - wird nur groß wenn der Dokumentvektor für alle Anfrageterme große Werte aufweist. Die Formel berücksichtigt also jeweils höchstens zwei Gewichte aus einem Dokumentvektor bzw. Terme aus einem Dokument, den Term der Anfrage mit dem kleinsten Gewicht im Dokumentvektor für den AND-Anteil und den mit dem größten Gewicht für den OR-Anteil.Lässt man als Werte des Dokumentvektors nur Null und Eins zu, erhält man für das Maximum und das Minimum in Formel ( _5.1.1.1_ ) die Funktionen ( _3.4.2_ ) und ( keine Referenz ), die im Abschnitt _3.4.2_ über Boolesches Retrieval und das Vektorraummodell definiert wurden. Man sieht, dass die Herleitung über die Theorie unscharfer Mengen, nur eine mögliche Interpretation der Formel ( _5.1.1.1_ ) ist. Man kann sie auch als Ähnlichkeitsformel interpretieren.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber