ZURÜCK

3.4.3: Gewichtungsmethoden

In diesem Abschnitt sollen Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument oder einer Anfrage gewichtet - also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können.

Die auf den ersten Blick einfachste Methode der Gewichtung von Termen in Dokumentvektoren besteht darin, die Terme von Indexierenden gewichten zu lassen. Das kann bei der manuellen (bzw. intellekutellen) Indexierung geschehen, insbesondere bei der Vergabe von Termen aus einem kontrollierten Vokabular oder bei der Vergabe von freien Schlüsselwörtern.

Dieses Vorgehen ist aber aus mehreren Gründen problematisch:

Auch bei der Konstruktion von Anfragen kann man die Terme von den Anfragenden gewichten lassen. Aber auch hier ist zu erwarten, dass Anfragende Probleme mit dem konsistenten Umgang mit Gewichtungen haben. Zudem stellt die Vergabe von Gewichten eine zusätzliche kognitive Belastung der Nutzenden dar.

Die erwähnten Schwierigkeiten legen es nahe, nach automatischen bzw. halbautomatischen Methoden zu suchen, mit denen Gewichte berechnet werden können. Das führt wieder auf die Frage zurück, wie Terme, die den Inhalt eines Dokuments gut charakterisieren, automatisch erkannt werden können. Beim Booleschen Retrieval wird häufig beim Erstellen der invertierten Liste eine Stoppwortliste verwendet, d. h. sehr häufige Terme wurden nicht in die invertierte Liste aufgenommen, weil man davon ausgeht, dass sie für die Repräsentation des Inhalts eines Dokuments nicht wichtig sind. Das kann im Vektorraummodell als generelle Gewichtung der Terme der Stoppwortliste mit dem Gewicht Null interpretiert werden, egal in welchem Dokument oder in welcher Anfrage sie auftreten.

Bei der Bestimmung von Termgewichten kann man zwischen solchen globalen, kontextunabhängigen oder between-object Einflussfaktoren und lokalen, kontextabhängigen oder within-object Einflussfaktoren unterscheiden. Ein lokales oder kontextabhängiges Kriterium für die Wahl bzw. Gewichtung von Termen wäre z. B. die Häufigkeit, mit der ein Term in einem Dokument auftritt.

ZUGANG3.4.3.1: Globale Gewichtungseinflüsse

ZUGANG3.4.3.2: Lokale Gewichtungseinflüsse

Häufig werden lokale und globalen Gewichtungen zu Formeln vom Typ

verknüpft. Gewichtsformeln von diesem Typ werden auch als tf-idf ( term frequency - inverted document frequency) Gewichtung bezeichnet. Sie sind in vielen Systemen und Untersuchungen erfolgreich eingesetzt worden.

Eine komplexere Formel, die für das experimentelle System SMART (Salton & McGill 1983 [->]) entwickelt wurde lautet z. B.:

bzw. als normierte Version:


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber