| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.3.2: Bayessche InferenznetzeWährend beim Imaging die Dokumente nur als Mengen von Termen behandelt wurden, können bei stärker strukturierten Dokumenten logische Verfahren besser zum Tragen kommen. Allerdings wird sich auch hier zeigen, dass die Komplexität, die eine genauere Modellierung der Struktur eines Dokuments mit sich bringt, der Anwendung für große Dokumentenmengen immer wieder Grenzen setzt. Ein bayessches Inferenznetz kann als ein gerichteter Graph definiert werden, dessen Knoten Aussagen und dessen Kanten Abhängigkeiten zwischen Aussagen darstellen. Die Knoten können Wahrscheinlichkeitswerte zwischen 0 und 1 annehmen. Diese Wahrscheinlichkeiten dienen als Ausgangswerte zur Berechnung neuer Wahrscheinlichkeiten in den Knoten, auf die die Kanten zeigen. Dazu besitzt jeder Knoten eine Funktion oder Tabelle, die aus der Wahrscheinlichkeit der Knoten, die auf ihn zeigen, eine neue Wahrscheinlichkeit berechnet. Im einfachsten Fall, wenn es zu einem Knoten nur einen anderen Knoten gibt, der auf ihn zeigt, kann das die einfache bedingte Wahrscheinlichkeit sein. Zur Informationsverarbeitung geht man nun von einem Muster von Aktivierungen auf den Knoten des Netzes aus. Aufgrund dieses Aktivierungsmusters werden für alle Knoten mit den zugehörigen Funktionen neue Aktivierungswerte berechnet. Dies kann so lange wiederholt werden, bis sich die so berechneten Muster nicht mehr oder nur noch minimal unterscheiden. In diesem Fall spricht man von Konvergenz des Netzes. Sie muss nicht in jedem Fall eintreten. Zur Anwendung im Information Retrieval führen Turtle und Croft (1990) [->] , (1991) [->] ein zweigeteiltes Inferenznetz ein. Dabei beschränken sie sich auf einen azyklischen Graph, der in Schichten organisiert ist. Der eine Teil, das Dokumentennetz (document network), besteht aus drei Schichten von Knoten,
Abbildung 78: Inferenznetz für das Information Retrieval nach Turtle und CroftDer zweite Teil des Netzes, das Anfragenetz (query network), kann ebenfalls aus mehreren Schichten bestehen, wobei die erste Schicht mit der Konzeptrepräsentationsschicht verbunden ist und die letzte Schicht nur aus einem Knoten besteht, dessen Wahrscheinlichkeitswert als Wahrscheinlichkeit der mit dem Netz berechneten Inferenz interpretiert wird. Dieser Teil des Netzes ist nur von der jeweiligen Anfrage abhängig und nicht von den Dokumenten. Um mit dem Netz eine Inferenz zu berechnen, werden die Werte der Dokumente, deren Relevanz zu einer Anfrage berechnet werden soll, auf den Wert 1 gesetzt, die Knoten der anderen Dokumente erhalten den Wert 0 . Da der Graph in Schichten organisiert ist, die Verbindungen im Netz also nur in eine Richtung verlaufen, muss hier nicht untersucht werden, ob das Inferenznetz konvergiert. Die Informationsverarbeitung beschränkt sich darauf, von Schicht zu Schicht neue Aktivierungen zu berechnen. Es kann also von vornherein bestimmt werden, nach wie vielen Iterationen die Aktivierung der Eingabeknoten in der letzten Schicht angekommen ist. Es werden also bei der Textrepräsentationsschicht beginnend sukzessive für die Knoten jeder Schicht die Wahrscheinlichkeitswerte berechnet, bis schließlich im letzten Knoten des Inferenznetzes die Relevanz abgelesen wird. Dieser Wert ist eine Funktion verschiedener Beiträge, die über verschiedene Pfade durch das Netz propagiert werden. Sie repräsentieren die verschiedenen Aspekte, die zur Beurteilung der Wichtigkeit eines Dokuments beitragen. Die DokumentenschichtIn der ersten Schicht des Netzes werden die verschiedenen Dokumente der Sammlung repräsentiert. Um die Dokumente in eine Rangfolge bezüglich einer Anfrage zu bringen, werden die Werte der Dokumentknoten einzeln auf 1 gesetzt und der Wahrscheinlichkeitswert der Inferenz berechnet. Es können aber auch mehrere Knoten auf 1 gesetzt werden, dann wird die Relevanz der entsprechenden Dokumentenmenge berechnet. Die TextrepräsentationsschichtDie Knoten dieser Schicht stehen für verschiedene Textteile, -typen oder -sichten. Dabei kann ein Dokument mehrere Textrepräsentationsknoten besitzen. So können z.B. verschiedene Felder eines Dokuments, wie Titel oder Abstract oder - bei längeren Dokumenten - verschiedene Kapitel oder Teile, durch unterschiedliche Knoten repräsentiert werden. Bei multimedialen Dokumenten können die verschiedenen Modalitäten wie Bilder, Audio- oder Videodaten verschiedenen Knoten zugewiesen werden. Auch Kommentare, Klassifikationen, Indexterme oder Einschätzungen aus Gutachten oder von anderen Nutzenden können speziellen Knoten zugeordnet werden. Die KonzeptrepräsentationsschichtDie Knoten dieser Schicht repräsentieren abstrakte Konzepte. Ihre Aktivierungen werden aus denen der Textrepräsentationsknoten berechnet. Sie stellen die Schnittstelle zum Anfragenetz dar. Die drei Schichten des Dokumentennetzes stellen also eine zunehmende Abstrahierung der Dokumentinhalte von der jeweiligen Oberflächenform dar, in der sie in den Dokumenten vorliegen. Neben der Definition der entsprechenden Knoten stellt insbesondere die Bestimmung der Übergangsfunktionen für die Knoten ein Problem dar. Sie müssen einerseits einfach genug sein, um auch für große Dokumentensammlungen berechnet werden zu können, andererseits stellt ihre Flexibilität ein wesentliches Merkmal der Methode dar. Das Anfragenetz ist in der Theorie von Turtle und Croft einfacher strukturiert. Zwischen den Konzepten und dem Bewertungsknoten sehen sie eine Schicht mit verschiedenen Anfragetypen vor, die verschiedene Konzepte zusammenfassen. Dadurch, dass man die Verarbeitung der Information in einem Netz grafisch darstellt, lassen sich die verschiedenen Schritte gut nachvollziehen. Insbesondere die verschiedenen Wege, auf denen Teile eines Dokuments zur Gesamtgewichtung beitragen können, sind gut sichtbar. Andererseits ist die vollständige Modellierung eines solchen komplexen Netzes sehr aufwändig. Es zeigt sich, dass hier in der Regel Kompromisse gemacht werden müssen. Aus ihrem theoretischen Modell leiten Turtle und Croft (1991) [->] ein weiter vereinfachtes Modell her, das in dem Retrieval-System INQUERY implementiert wurde. Dazu
Abbildung 79: Inferenznetz, wie es zur Implementierung von INQUERY verwendet wurde (nach Turtle und Croft 1991)Zur Berechnung der Ähnlichkeiten zwischen einer Anfrage und einem Dokument verwenden Turtle und Croft in ihrem Modell von 1991 verschiedene Formeln für die Wahrscheinlichkeit eines einzelnen Knotens, die sich teilweise als eine probabilistische Form des booleschen Retrieval interpretieren lassen. Seien wi,1,...,wi,r die Werte der Knoten, die eine Verbindung zu einem Knoten k haben, dann lassen sich einige der Formeln so schreiben:
Anders ist das bei dem von der AND-Verknüpfung abgeleiteten Ähnlichkeitsmaß:
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.