Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Stichwörter dieser Seite Information Retrieval, Kookurrenzdaten, assoziative Regel, Attribut, Dokumenthäufigkeit, Assoziationstheorie, Grundformenreduktion, computerlinguistischer Ansatz, Oberflächenform, Synonymmenge, Granularität, Ähnlichkeitsmaß
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5.1: Der assoziative Ansatz im IR

Während die oben beschriebenen Ansätze Wissen über die Sprache oder gemeinsames Auftreten in einzelnen Dokumenten verwenden, um ähnliche Terme zu finden, kann man auch versuchen, solches Wissen aus großen Textsammlungen oder Korpora zu gewinnen. Eine Gruppe solcher Ansätze, die die Abhängigkeit zwischen Termen allgemeiner bestimmen und für das Information Retrieval nutzen, sind Modelle, die mit so genannten Kookurrenzdaten arbeiten.

Unter Kookurrenzdaten versteht man dabei Häufigkeitsdaten über das gemeinsame Auftreten von Termen (oder allgemeiner: Attributwerten) in großen Text- oder Beispielsammlungen. Kookurrenzdaten können als Spezialfälle von assoziativen Regeln gesehen werden, bei denen auf der linken Seite nur ein Attribut steht. Diese Regeln werden dabei auf binäre Attribute angewendet, die das Auftreten eines Terms in einem Text anzeigen. Kookurrenzdaten sagen zunächst allerdings nur aus, wie oft zwei Terme zusammen auftreten. Sie sagen nichts darüber aus, ob das gemeinsame Auftreten zufällig ist oder nicht. Um das zu bestimmen, müssen die Häufigkeiten des gemeinsamen Auftretens mit den Dokumenthäufigkeiten der Terme in Beziehung gesetzt werden. Kookurrenzdaten werden im Allgemeinen nicht benutzt, um die Wahrscheinlichkeiten aus dem Modell des probabilistischen Retrieval oder bei Inferenznetzen zu berechnen, sondern um Ähnlichkeiten zwischen Termen zu bestimmen.

Assoziationstheorie

Elemente der Assoziationstheorie, die diesem Ansatz zugrunde liegt, lassen sich bereits bei Aristoteles finden. Der englische Psychologe William James formulierte sie 1890 in seinem Buch "Principles of Psychology" (James, 1890 [->] , Band 1, Seite 561) folgendermaßen:

"Objects once experienced together tend to become associated in the imagination, so that when any one of them is thought of, the others are likely to be thought of also."
Mit dieser einfachen Annahme kann man versuchen, aus großen Textkorpora Assoziationen zwischen Termen zu berechnen und sie zur Darstellung von Begriffen oder Konzepten zu verwenden, wie das bereits beim Imaging angenommen wurde: Dort wurden Terme durch die Dokumente charakterisiert, in denen sie auftraten.

Diese Methode kann auch als anderer und allgemeinerer Ansatz zu den Überlegungen aus Abschnitt 1.3.2.1 zur Grundformenreduktion aufgefasst werden. Dort war zwischen einem Pattern-Recognition-Ansatz, der Terme als Zeichenketten behandelt, und einem computerlinguistischen Ansatz, der Terme als Formen eines Worts ansieht, unterschieden worden. Im letzten Fall wird ein Wort als "Oberflächenform" eines Begriffs oder Konzepts aufgefasst. In diesem Zusammenhang waren bereits die Probleme der Synonymie und Polysemie angesprochen worden, also die Tatsache, dass zwei verschiedene Wörter dasselbe Objekt bezeichnen können, bzw. dass ein Wort zwei verschiedene Objekte bezeichnen kann. Ersetzt man "Objekt" durch "Begriff" oder "Konzept", sieht man, dass dieses Problem viel allgemeiner besteht: Einem Begriff können häufig mehrere Wörter zugeordnet werden, die ihn charakterisieren, und ein Wort kann zur Charakterisierung von verschiedenen Begriffen verwendet werden. Wie bei der Bestimmung der Synonymmengen bei der Konstruktion eines Thesaurus wird durch die Auswahl der Wörter die Genauigkeit oder Granularität, mit der ein Begriff beschrieben werden kann, festgelegt.

Der assoziative Ansatz stellt eine einfache Modellierung dieser Beobachtung dar: Er charakterisiert die "Bedeutung" eines Terms durch dessen Beziehungen zu anderen Termen, konkret durch eine Menge von Gewichten, die die Ähnlichkeiten zu den anderen Termen eines Vokabulars beschreiben. Angewendet auf das Information Retrieval versucht der assoziative Ansatz, durch ein Ähnlichkeitsmaß zwischen Termen, einer Indexierung oder einer Anfrage weitere Terme hinzuzufügen, die im Allgemeinen zur Charakterisierung eines Begriffs oder Konzepts verwendet werden, in dem Dokument bzw. der Anfrage aber nicht auftauchen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5.1Der assoziative Ansatz im IR
Information Retrieval, Kookurrenzdaten, assoziative Regel, Attribut, Dokumenthäufigkeit, Assoziationstheorie, Grundformenreduktion, computerlinguistischer Ansatz, Oberflächenform, Synonymmenge, Granularität, Ähnlichkeitsmaß Ähnlichkeitsmaß, Assoziationstheorie, assoziative Regel, Attribut, computerlinguistischer Ansatz, Dokumenthäufigkeit, Granularität, Grundformenreduktion, Information Retrieval, Kookurrenzdaten, Oberflächenform, Synonymmenge

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.