Im Abschnitt
_3.4.3_
über die
Gewichtung von Termen im Dokumentvektor wurden lokale Einflussfaktoren
wie z. B. der Dokumentteil (Titel, Abstract) genannt, die benutzt werden
können, um Terme oder Attribute eines Dokuments für die
Darstellung im Vektorraummodell zu gewichten. Dabei war allerdings nicht
näher beschrieben worden, wie die Gewichtung ermittelt werden soll.
Dazu kann man z. B. induktive Lernmethoden verwenden. Als Beispiel soll
hier der sog.
Darmstädter Indexierungs
Ansatz (
Darmstadt Indexing
Approach)
DIA
erwähnt werden. Dort wurde zusätzlich zum Auftreten die Art
und Weise, wie ein Term in einem Dokument auftritt, erhoben. Das kann z.
B. die Häufigkeit des Auftretens im Dokument, die Stelle des
Auftretens (z. B. Titel, Stichwortverzeichnis oder Abstract) oder eine
Kombination solcher Angaben sein. Allgemein kann man die
Auftrittsform (bei Fuhr
1995 [->]
relevance description
genannt) als ein Attribut Ai:D->Ri formulieren, in das auch
weitere Informationen über den Term und das Dokument
einfließen können, wie die Länge des Dokuments oder die
Häufigkeit des Terms in der Dokumentsammlung. Die meisten
Eigenschaften eines Terms, die dabei verwendet werden, hängen nicht
von seiner Bedeutung ab, sondern können allgemein erhoben werden.
Werden nur solche Eigenschaften verwendet, kann man die Auftrittsform
als Funktion des Dokuments dD und des Terms tiT auffassen, also als eine Abbildung x:D×T->
Weiter kann man die verschiedenen Bedingungen, die in der Beschreibung der Auftrittsform verwendet werden, auch als separate Attribute auffassen, die dann z. B. die Häufigkeit, mit der ein Term im Dokument auftritt, den Ort an dem er auftritt, oder die Anzahl der Dokumente in der Sammlung in denen er auftritt, einzeln beschreiben. Sie können bei der Berechnung der Gewichtung eines Terms in unterschiedlichem Maße beitragen. Der jeweilige Einfluss dieser Auftrittsformen kann mit verschiedenen Methoden bestimmt werden. Wenn Trainingsdaten zur Verfügung stehen, können z. B. Machine Learning Verfahren verwendet werden.
Dadurch, dass Auftrittsformen unabhängig von den tatsächlichen Termen betrachtet werden, verringert sich die Anzahl der im Machine Learning Ansatz zu bearbeitenden Attribute. Ausserdem erhöht sich die Anzahl der Trainingsbeispiele, da jeder Term, der in einer Anfrage und einem für die Anfrage bewerteten Dokument vorkommt, ein Trainingsbeispiel erzeugt. Beispiele für Attribute sind in Abbildung _82_ angegeben.
Im Rahmen des Darmstädter Ansatzes wurden verschiedene Verfahren zur Bestimmung von Indexierungsfunktionen - also Funktionen nach denen die verschiedenen Auftrittsformen gewichtet werden - verwendet, darunter der ID3 Algorithmus, ein Maximum Spanning Tree Ansatz, der paarweise Abhängigkeiten unter den Komponenten zulässt, ein Ansatz der auf der logistischen Regression beruht und eine Methode der kleinsten Fehlerquadrate auf einem Raum von Polynomen. Dabei wurden (nach Fuhr 95) gute Ergebnisse erziehlt, wenn ausreichend Relevanzdaten zur Verfügung standen. Stehen stark strukturierte Dokumente - wie z. B. SGML Dokumente - zur Verfügung, können Auftrittsformen wesentlich flexibler definiert werden, als bei schwach strukturierten Dokumenten.