ZURÜCK

4.4.2: Kookurrenzverfahren

Untersuchungen, die mit Kookurrenzdaten arbeiten, wurden bereits Anfang der 60er Jahre durchgeführt (Giuliano & Jones, 1963 [->]). Seitdem ist das Thema immer wieder aufgegriffen, häufig aber als nicht erfolgreich bewertet worden (Salton & Buckley 1988 [->], Peat & Willett 1991 [->]). Ein grundsätzliches Problem des Ansatzes ist die Aufwendigkeit in bezug auf Rechenkapazität und Speicherplatz sowie die Notwendigkeit, für die Bestimmung der Kookurrenzdaten große Korpora zur Verfügung zu haben, um brauchbare Schätzungen für die Wahrscheinlichkeiten des gemeinsamen Auftretens von Termen zu gewinnen (Gale & Church, 1990 [->]).

Formal lassen sich Kookurrenzmodelle auf mehrere Arten herleiten. Zunächst greifen wir auf die Definition _3.4.1.1_ des Vektorraumodells zurück. Dort waren die Dokumente einer Sammlung D={d1,...,dm} als Vektoren wi=(wi,1,...,wi,n) über den Termen T={t1,...,tn} oder den Attributen A={A1,...,An} definiert worden, wobei der Eintrag wi,j in einem Dokumentvektor die Wichtigkeit des Terms tj im Dokument di , bzw. den Wert des Attributes Aj(di) angab. Diese Vektoren kann man als Zeilen einer Term-Dokument-Matrix

W={wi,j}i=1,...,m; j=1,...,n

schreiben. Diese Matrix oder Relation enthält also alle Informationen einer Dokumentensammlung, die sich mit der Repräsentation durch Terme bzw. Attribute darstellen lassen.

Im Allgemeinen werden Term-Dokument-Matrizen dazu verwendet, Ähnlichkeiten zu berechnen. Für Ähnlichkeiten zwischen Dokumenten wurde das im Abschnitt _3.4_ über Vektorraummodelle beschrieben.

ZUGANG4.4.2.1: Term-Term-Matrizen

ZUGANG4.4.2.2: Anwendung im IR

ZUGANG4.4.2.3: Häufigkeit der Terme

ZUGANG4.4.2.4: Expansion von Termen oder Anfragen

ZUGANG4.4.2.5: Größe der Dokumentensammlung

ZUGANG4.4.2.6: Eine Untersuchung zur Bestimmung von Suchtermen

ZUGANG4.4.2.7: Komplexere Kookurrenzverfahren


ZURÜCK

© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber