ZURÜCK

6.1: Korpusbasierte Verfahren

Während die oben beschriebenen Ansätze Wissen über die Sprache oder gemeinsames Auftreten in einzelnen Dokumenten verwenden um ähnliche Terme zu finden, kann man auch versuchen, solches Wissen aus großen Textsammlungen oder Korpora zu gewinnen. Eine Gruppe solcher Ansätze, die Abhängigkeit zwischen Termen allgemeiner zu bestimmen und zu nutzen, sind Modelle, die mit Kookurrenzdaten arbeiten. Unter Kookurrenzdaten versteht man dabei Häufigkeitsdaten über das gemeinsame Auftreten von Termen (oder allgemeiner Attributwerten) in grossen Text- oder Beispielsammlungen. Kookurrenzdaten können damit als Spezialfälle der im Data Mining definierten assoziativen Regeln über binären Attributen die das Auftreten eines Terms beschreiben, gesehen werden, bei denen auf der linken Seite nur ein Attribut steht. Diese Daten sagen zunächst allerdings nur aus, wie oft zwei Terme zusammen auftreten. Sie sagen nichts darüber aus, ob das gemeinsame Auftreten zufällig ist oder nicht. Um das zu bestimmen, müssen die Häufigkeiten des gemeinsamen Auftretens mit den Dokumenthäufigkeiten der Terme in Beziehung gesetzt werden. Kookurrenzdaten werden i. a. nicht benutzt um die Wahrscheinlichkeiten aus dem Modell des probabilistischen Retrieval oder bei Inferenznetzen zu berechnen, sondern um Ähnlichkeitsmaße zwischen Termen zu berechnen (wie sie schon beim Imaging verwendet wurden).

ZUGANG6.1.1: Der assoziative Ansatz im IR

ZUGANG6.1.2: Kookurrenzverfahren

ZUGANG6.1.3: Anwendung im mehrsprachigen Retrieval

ZUGANG6.1.4: Deskriptoren bestimmen

ZUGANG6.1.5: Latent Semantic Indexing


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber