R. Ferber: Data Mining & Information Retrieval 1.7.3

6.2: Gewichtungsmethoden Lernen

Im Abschnitt _3.4.3_ über die Gewichtung von Termen im Dokumentvektor wurden lokale Einflussfaktoren wie z. B. der Dokumentteil (Titel, Abstract) genannt, die benutzt werden können, um Terme oder Attribute eines Dokuments für die Darstellung im Vektorraummodell zu gewichten. Dabei war allerdings nicht näher beschrieben worden, wie die Gewichtung ermittelt werden soll. Dazu kann man z. B. induktive Lernmethoden verwenden. Als Beispiel soll hier der sog. Darmstädter Indexierungs Ansatz ( Darmstadt Indexing Approach) DIA erwähnt werden. Dort wurde zusätzlich zum Auftreten die Art und Weise, wie ein Term in einem Dokument auftritt, erhoben. Das kann z. B. die Häufigkeit des Auftretens im Dokument, die Stelle des Auftretens (z. B. Titel, Stichwortverzeichnis oder Abstract) oder eine Kombination solcher Angaben sein. Allgemein kann man die Auftrittsform (bei Fuhr 1995 [->] relevance description genannt) als ein Attribut A_i:D->R_i formulieren, in das auch weitere Informationen über den Term und das Dokument einfließen können, wie die Länge des Dokuments oder die Häufigkeit des Terms in der Dokumentsammlung. Die meisten Eigenschaften eines Terms, die dabei verwendet werden, hängen nicht von seiner Bedeutung ab, sondern können allgemein erhoben werden. Werden nur solche Eigenschaften verwendet, kann man die Auftrittsform als Funktion des Dokuments dD und des Terms t_iT auffassen, also als eine Abbildung x:D×T->_{_iI}R_i mit x(d,t_i)=A_i(d) wobei aber R_i=R_j:=R i,j{1,...,n} gilt. D. h. man abstrahiert von den einzelnen Termen und erhebt nur die Auftrittsform. Die verschiedenen Ausprägungen der Auftrittsform, also die Werte aus R , können dann als Basis für die Gewichtung des Terms im Dokumentvektor verwendet werden.

Weiter kann man die verschiedenen Bedingungen, die in der Beschreibung der Auftrittsform verwendet werden, auch als separate Attribute auffassen, die dann z. B. die Häufigkeit, mit der ein Term im Dokument auftritt, den Ort an dem er auftritt, oder die Anzahl der Dokumente in der Sammlung in denen er auftritt, einzeln beschreiben. Sie können bei der Berechnung der Gewichtung eines Terms in unterschiedlichem Maße beitragen. Der jeweilige Einfluss dieser Auftrittsformen kann mit verschiedenen Methoden bestimmt werden. Wenn Trainingsdaten zur Verfügung stehen, können z. B. Machine Learning Verfahren verwendet werden.

Abb. 82: Einflussfaktoren von Auftrittsformen nach Fuhr (1995)

Dadurch, dass Auftrittsformen unabhängig von den tatsächlichen Termen betrachtet werden, verringert sich die Anzahl der im Machine Learning Ansatz zu bearbeitenden Attribute. Ausserdem erhöht sich die Anzahl der Trainingsbeispiele, da jeder Term, der in einer Anfrage und einem für die Anfrage bewerteten Dokument vorkommt, ein Trainingsbeispiel erzeugt. Beispiele für Attribute sind in Abbildung _82_ angegeben.

Im Rahmen des Darmstädter Ansatzes wurden verschiedene Verfahren zur Bestimmung von Indexierungsfunktionen - also Funktionen nach denen die verschiedenen Auftrittsformen gewichtet werden - verwendet, darunter der ID3 Algorithmus, ein Maximum Spanning Tree Ansatz, der paarweise Abhängigkeiten unter den Komponenten zulässt, ein Ansatz der auf der logistischen Regression beruht und eine Methode der kleinsten Fehlerquadrate auf einem Raum von Polynomen. Dabei wurden (nach Fuhr 95) gute Ergebnisse erziehlt, wenn ausreichend Relevanzdaten zur Verfügung standen. Stehen stark strukturierte Dokumente - wie z. B. SGML Dokumente - zur Verfügung, können Auftrittsformen wesentlich flexibler definiert werden, als bei schwach strukturierten Dokumenten.