R. Ferber: Data Mining & Information Retrieval 1.7.2.2

6.1.2: Kookurrenzverfahren

Untersuchungen, die mit Kookurrenzdaten arbeiten, wurden bereits Anfang der 1960er Jahre durchgeführt (Giuliano & Jones, 1963 [->]). Seitdem ist das Thema immer wieder aufgegriffen, häufig aber als nicht erfolgreich bewertet worden (Salton & Buckley 1988 [->], Peat & Willett 1991 [->]). Ein grundsätzliches Problem des Ansatzes ist der große Bedarf an Rechenkapazität und Speicherplatz sowie die Notwendigkeit, für die Bestimmung der Kookurrenzdaten große Korpora zur Verfügung zu haben, um brauchbare Schätzungen für die Wahrscheinlichkeiten des gemeinsamen Auftretens von Termen zu gewinnen (Gale & Church, 1990 [->]).

Formal lassen sich Kookurrenzmodelle auf mehrere Arten herleiten. Zunächst greifen wir auf die Definition des Vektorraumodells in Abschnitt _3.4.1_ zurück. Dort waren die Dokumente einer Sammlung D={d₁,...,d_m} als Vektoren w_i=(w_i,1,...,w_i,n) über den Termen T={t₁,...,t_n} oder den Attributen A={A₁,...,A_n} definiert worden, wobei der Eintrag w_i,j in einem Dokumentvektor die Wichtigkeit des Terms t_j im Dokument d_i , bzw. den Wert des Attributes A_j(d_i) angab. Diese Vektoren kann man als Zeilen einer Term-Dokument-Matrix

W={w_i,j}_{i=1,...,m; j=1,...,n}

schreiben. Diese Matrix oder Relation enthält also alle Informationen einer Dokumentsammlung, die sich mit der Repräsentation durch Terme bzw. Attribute darstellen lassen. Auf sie können formal die Data Mining Verfahren angewendet werden, die im Teil _4_ besprochen wurden.

6.1.2.1: Ein Machine Learning Ansatz

Die direkte Anwendung von Machine Learning Verfahren auf den Term-Dokument-Matrizen wie in dieser Studie sind allerdings die Ausnahme. Im Allgemeinen werden Term-Dokument-Matrizen dazu verwendet, Ähnlichkeiten zu berechnen. Für Ähnlichkeiten zwischen Dokumenten wurde das im Abschnitt _3.4_ über Vektorraummodelle beschrieben. Aus diesen Verfahren lassen sich nicht unmittelbar Regelmäßigkeiten der Dokumentsammlung ablesen. Verfahren zur Berechnung von Ähnlichkeiten zwischen Termen können aber als Methoden der Regelextraktion gesehen werden: ihre Ergebnisse geben Auskunft über die Verwendung von Termen in den Dokumenten der Sammlung und können in eine für Nutzende verständliche Form gebracht werden.

6.1.2: Kookurrenzverfahren

6.1.2.1: Ein Machine Learning Ansatz

6.1.2.2: Term-Term-Matrizen

6.1.2.3: Anwendung im IR

6.1.2.4: Häufigkeit der Terme

6.1.2.5: Expansion von Termen oder Anfragen

6.1.2.6: Größe der Dokumentsammlung

6.1.2.7: Eine Untersuchung zur Bestimmung von Suchtermen

6.1.2.8: Komplexere Kookurrenzverfahren