Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Stichwörter dieser Seite Gewichtungsmethode, Dokumentvektor, Abstract, Vektorraummodell, Darmstädter Indexierungsansatz, Darmstadt Indexing Approach, DIA, Auftrittsform, relevance description, Attribut, SGML, XML
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5.6: Gewichtungsmethoden Lernen

In Abschnitt 1.3.6.3 über die Gewichtung von Termen im Dokumentvektor wurden lokale Einflussfaktoren wie der Dokumentteil (Titel, Abstract) genannt, die benutzt werden können, um Terme oder Attribute eines Dokuments für die Darstellung im Vektorraummodell zu gewichten. Dabei war allerdings nicht näher beschrieben worden, wie die Gewichtung ermittelt werden soll. Dazu kann man z.B. induktive Lernmethoden verwenden.

Als Beispiel soll hier der so genannte Darmstädter Indexierungsansatz (Darmstadt Indexing Approach) DIA erwähnt werden. Dort wurde zusätzlich zum Auftreten die Art und Weise, wie ein Term in einem Dokument auftritt, erhoben. Das kann z.B. die Häufigkeit des Auftretens im Dokument, die Stelle des Auftretens (z.B. Titel, Stichwortverzeichnis oder Abstract) oder eine Kombination solcher Angaben sein. Allgemein kann man die Auftrittsform (bei Fuhr und Buckley (1991) [->] relevance description genannt) als ein Attribut Ai:D->Ri formulieren, in das auch weitere Informationen über den Term und das Dokument einfließen können, wie die Länge des Dokuments oder die Häufigkeit des Terms in der Dokumentensammlung. Die meisten Eigenschaften eines Terms, die dabei verwendet werden, hängen nicht von seiner Bedeutung ab, sondern können allgemein erhoben werden. Werden nur solche Eigenschaften verwendet, kann man die Auftrittsform als Funktion des Dokuments dMathematisches Zeichen: Element vonD und des Terms tiMathematisches Zeichen: Element vonT auffassen, also als eine Abbildung
x:D×T->
Mathematisches Zeichen: grosses Vereinigungszeichen
iMathematisches Zeichen: Element vonI
Ri
mit x(d,ti)=Ai (d) , wobei aber Ri=Rj:=R Mathematisches Zeichen: fuer allei,jMathematisches Zeichen: Element von {1,...,n} gilt. Das heißt, man abstrahiert von den einzelnen Termen und erhebt nur die Auftrittsform. Die verschiedenen Ausprägungen der Auftrittsform, also die Werte aus R , können dann als Basis für die Gewichtung des Terms im Dokumentvektor verwendet werden.

Weiter kann man die verschiedenen Bedingungen, die in der Beschreibung der Auftrittsform verwendet werden, auch als separate Attribute auffassen, die dann z.B. die Häufigkeit, mit der ein Term im Dokument auftritt, den Ort, an dem er auftritt, oder die Anzahl der Dokumente in der Sammlung, in denen er auftritt, einzeln beschreiben. Sie können bei der Berechnung der Gewichtung eines Terms in unterschiedlichem Maße beitragen. Der jeweilige Einfluss dieser Auftrittsformen kann mit verschiedenen Methoden bestimmt werden. Wenn Trainingsdaten zur Verfügung stehen, können z.B. Machine-Learning-Verfahren verwendet werden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 97: Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley

Dadurch, dass Auftrittsformen unabhängig von den tatsächlichen Termen betrachtet werden, verringert sich die Anzahl der im Machine-Learning-Ansatz zu bearbeitenden Attribute. Außerdem erhöht sich die Anzahl der Trainingsbeispiele, da jeder Term, der in einer Anfrage und einem für die Anfrage bewerteten Dokument vorkommt, ein Trainingsbeispiel erzeugt. Beispiele für Attribute sind in Abbildung 97 angegeben. (Nach Fuhr und Buckley (1991) [->] .)

Im Rahmen des Darmstädter Ansatzes wurden verschiedene Verfahren zur Bestimmung von Indexierungsfunktionen - also Funktionen, nach denen die verschiedenen Auftrittsformen gewichtet werden - verwendet. Dazu gehörten der ID3-Algorithmus, ein Maximum-Spanning-Tree-Ansatz (der paarweise Abhängigkeiten unter den Komponenten zulässt), ein Ansatz, der auf der logistischen Regression beruht, und eine Methode der kleinsten Fehlerquadrate auf einem Raum von Polynomen. Dabei wurden (nach Fuhr und Buckley, 1991 [->] ) gute Ergebnisse erzielt, wenn ausreichend Relevanzdaten zur Verfügung standen.

Stehen stark strukturierte Dokumente - wie SGML- oder XML-Dokumente - zur Verfügung, können Auftrittsformen wesentlich flexibler definiert werden als bei schwach strukturierten Dokumenten. Wieweit dadurch die Retrieval-Ergebnisse verbessert werden können, ist allerdings noch offen. Erste Ansätze werden in Abschnitt 4.1.4 beschrieben.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5.6Gewichtungsmethoden Lernen
Abb. 97 Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley
Gewichtungsmethode, Dokumentvektor, Abstract, Vektorraummodell, Darmstädter Indexierungsansatz, Darmstadt Indexing Approach, DIA, Auftrittsform, relevance description, Attribut, SGML, XML Abstract, Attribut, Auftrittsform, Darmstadt Indexing Approach, Darmstädter Indexierungsansatz, DIA, Dokumentvektor, Gewichtungsmethode, relevance description, SGML, Vektorraummodell, XML

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.