ZURÜCK

5.3: Logikbasierte Modelle des Information Retrieval

Die meisten bisher besprochenen Retrievalverfahren stützen sich auf das gleichzeitige Auftreten von Termen in einer Anfrage und in einem Dokument. Dabei bleibt es weitgehend den Anfragenden und ihrer Kenntnis über das Gebiet, aus dem die Anfrage stammt, überlassen, welche Terme sie verwenden. Ansätze, die die Wahl der Terme auf ein vorgegebenes Vokabular einschränken, sind in Abschnitt _3.3.2_ über Thesauren beschrieben worden. Ein Thesaurus gibt zum einen ein Vokabular vor und soll damit die Suche über die Synonymrelation davon unabhängig machen, welcher Term aus der Synonymmenge verwendet wird, zum anderen gibt er durch die Beziehungen zwischen den Termen des Vokabulars z. B. an, dass ein Term ein Oberbegriff eines anderen Terms ist. Die Konzepthierarchien, die im Abschnitt _4.6_ über KDD Verfahren mit externem Wissen eingeführt wurden, bilden einen Teil der Beziehungen ab, die in einem Thesaurus dargestellt werden können. Sie waren als eine Methode, externes Wissen in einem KDD System zu nutzen, verwendet worden. Entsprechend können Thesauren für IR Systeme verwendet werden, um Anfragen zu verallgemeinern, indem man zu Oberbegriffen übergeht oder - wenn nicht in den Feldern, die nur Deskriptoren des Thesaurus enthalten gesucht werden soll - Synonyme hinzufügt. Als Verallgemeinerung dieses Ansatzes waren im Abschnitt _3.3.3_ semantische Netze genannt worden. Mit ihnen sollten Sachverhalte unabhängig von einer bestimmten sprachlichen Ausdrucksform modelliert werden können. In einem solchen Modell kann man die Suche nach Informationen als einen Prozess des logischen Schließens sehen. Abbildung 71 zeigt ein sehr einfaches Bespiel, wie aus gegebenen Regeln bzw. Beschreibungen eine neue Regel durch Vererbung erzeugt werden kann.

ZUGANGAbb. 71: Modellieren von Wissen durch Regeln

Aus dieser Perspektive kann man den gesamten Vorgang des Information Retrieval als eine Form des logischen Schließens oder der Inferenz betrachten. Diese Sichtweise liegt dem Modell von van Rijsbergen (1986 [->]) zugrunde: Die Basis des logischen Modells des Information Retrieval ist die (vor dem Hintergrund der künstlichen Intelligenz zu sehende) Annahme, dass Anfragen und Dokumente durch logische Regeln repräsentiert und durch einen Inferenzprozeß zueinander in Beziehung gesetzt werden können. Ein Dokument wird als zu einer Anfrage relevant angesehen, wenn das Retrieval System die Anfrage aus den Regeln und Aussagen, die das Dokument repräsentieren, ableiten kann. Dabei kann der Ableitungsprozess prinzipiell komplizierter sein als lediglich die Überprüfung des Vorkommens von gleichen Termen in Dokument und Anfrage. Insbesondere kann zusätzliches Wissen in Form von Regeln verwendet werden, das aus einer Wissensbasis des Systems stammt oder von den Nutzenden eingegeben bzw. abgefragt wird.

Wie schon im Abschnitt _3.3.3_ über semantische Netze erwähnt, ist ein solches System sehr mächtig. Daher ist es zunächst auch sehr anfällig für Inkonsistenzen in der Wissensbasis bzw. in den Anfragen und Dokumenten. Nun sind Dokumentsammlungen - wie schon öfter erwähnt - in aller Regel nicht konsistent, und auch bei Regeln, die von Nutzenden eingegeben werden, kann man i. a. nicht von Konsistenz ausgehen. Zudem können sich die Inhalte von Dokumenten widersprechen wenn beispielsweise sich widersprechende Theorien beschrieben werden. Trotzdem sollten in einem solchen Fall die Dokumente, die sich widersprechende Theorien darstellen, gefunden werden können.

Neben diesen prinzipiellen Problemen stellt sich aber vor allem die Frage, wie Regeln aus einem Text gewonnen werden können. Im Allgemeinen sind die Dokumente für Menschen als Lesende geschrieben. Es gibt bisher kaum maschinelle Methoden um daraus verlässliche und sinnvolle Regeln zu gewinnen, die denen ähneln, die Menschen ableiten würden. Will man Dokumente automatisch verarbeiten, basieren deshalb auch die Verfahren des logischen Retrievals wieder weitgehend auf dem Auftreten von Termen in Texten. Sie können aber versuchen, Weltwissen in Form von Regeln einzubeziehen.

ZUGANG5.3.1: Imaging

ZUGANG5.3.2: Bayes'sche Inferenznetze

ZUGANG5.3.3: Abduktive Anfrageoptimierung


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber