ZURÜCK

3.4.1: Das Modell

Das Vektorraummodell geht von einem festen Vokabular von Termen aus, die verwendet werden, um Dokumente durch Vektoren über diesen Termen zu beschreiben:

ZUGANG3.4.1.1: Vektorraummodell:

Dadruch, dass Dokumente und Anfragen durch reelle Vektoren aus dem selben Vektorraum dargestellt werden, gibt es andere Möglichkeiten, Dokumente und Anfragen zu vergleichen als bei der Darstellung als Mengen von Termen. Es können auch Methoden aus der Theorie der Vektorräume angewendet werden. Insbesondere können so zu einer Anfrage, bzw. ihrem Anfragevektor die ähnlichsten Dokumente in einer Sammlung gefunden und in eine Rangfolge gebracht werden.

ZUGANGAbb. 29: Schematische Darstellung eines Vektorraum Text Retrieval Systems

Die Definition des Vektorraummodells lässt sich auch allgemeiner mit Attributen formulieren:

ZUGANG3.4.1.2: Vektorraummodell mit Attributen:

Wählt man als Attribute wieder das Auftreten von Termen in einem Text oder in bestimmten Feldern eines bibliographischen Records, stimmt diese Definition mit der zuerst gegebenen überein. Dabei kann das Auftreten aber allgemeiner definiert werden, indem z. B. in den Attributen Lemmatisierungsverfahren verwendet oder indem Wörter, die in einem Thesaurus vorkommen mit der USE Relation auf die zugehörigen Deskriptoren abgebildet werden.

Die Definition über Attribute hat aber auch den Vorteil, dass sie nicht nur auf Texte angewendet werden kann, sondern auf beliebige Objekte, für die reellwertige Attribute definiert werden können, die die Objekte oder deren Inhalt beschreiben.

Texte haben allerdings gegenüber anderen Objekten - insbesondere gegenüber Bildern - den Vorteil, dass sie aus einzelnen Wörtern aufgebaut sind, die als sinntragende atomare Einheiten betrachtet werden können. Darauf bauen die meisten IR Methoden auf. Solche atomaren Inhaltseinheiten lassen sich z. B. bei Bildern nicht oder nur mit großem Aufwand und entsprechender Unsicherheit automatisch ermitteln. In Bildern, die als Pixelmuster vorliegen, kann man z. B. versuchen, zusammenhängende Regionen zu finden und auf Grund ihrer Farb- und Textureigenschaften Vermutungen darüber anstellen, was sie darstellen. Die Sicherheit mit der ein Inhalt erkannt wurde, kann im Vektorraummodell in den Gewichtswert des entsprechenden Attributs eingehen. Um diesen Mangel an inhaltlicher Beschreibung zu beheben, gibt es Pläne bei Standards zur Bildbeschreibung auch Angaben darüber vorzusehen, an welcher Stelle im Bild welche Objekte abgebildet sind.

Die beiden Definitionen beschreiben das Vektorraummodell aus einer theoretischen Perspektive. Um es zu implementieren verwendet man ebenso wie beim Booleschen Modell in der Regel invertierte Listen. Dabei werden zusätzlich zu den Positionsangaben die Gewichte gespeichert.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber