ZURÜCK

3.4: Das Vektorraummodell

Im Kapitel _3.1_ über Boolesches Retrieval wurden Retrievalverfahren vorgestellt, die auf dem Auftauchen von Termen in Texten oder - allgemeiner - von Attributwerten in Dokumenten aufgebaut sind. Im Kapitel _3.2_ waren Reduktionsmethoden vorgestellt worden, mit denen Terme erzeugt werden können, die ein Wort oder einen Stamm und alle Formen, die daraus abgeleitet werden können, zusammenfassen. Kapitel _3.3_ beschreibt mit Klassifikationen und Thesauren Methoden, mit denen Terme oder Bezeichner gebildet werden können, die Wissensgebiete, Begriffe bzw. Bedeutungen beschreiben und dabei z. B. verschiedene umgangsprachliche Wörter zusammenfassen. Diese unterschiedlichen Arten von Termen wurden alle verwendet, um Dokumente zu indexieren; d. h. sie wurden den Dokumenten zugeordnet. Um Anfragen zu bearbeiten wurde untersucht, ob ein Term der Anfrage in der dort vorgegebenen Form als Indexterm eines Dokuments auftritt.

In diesem Kapitel geht es nun um Verfahren, die die Terme, die in einem Dokument auftreten, gewichten. Dadurch kann die Wichtigkeit von Termen für die Beschreibung des Inhalts eines Dokuments berücksichtigt werden. Das kann zum einen dadurch geschehen, dass den Termen von vornherein unterschiedliche Gewichtungen gegeben werden, zum anderen können aus der Art des Auftretens in den Dokumenten unterschiedliche Gewichtungen abgeleitet werden.

Um die Darstellung von Dokumenten durch gewichtete Terme im IR nutzen zu können, müssen auch geeignete Methoden entwickelt werden, um zu einer Anfrage die "richtigen" Dokumente zu finden. Das kann mit Hilfe von Ähnlichkeitsmaßen getan werden, die im zweiten Teil des Kapitels genauer beschrieben werden.

ZUGANG3.4.1: Das Modell

ZUGANG3.4.2: Vektorraummodell und Boolesches Retrieval

ZUGANG3.4.3: Gewichtungsmethoden

ZUGANG3.4.4: Relevance Feedback

ZUGANG3.4.5: Ähnlichkeitsfunktionen

ZUGANG3.4.6: Das Retrievalsystem SMART


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber