R. Ferber: Data Mining & Information Retrieval 1.4.4.3.11

3.4.3.1: Globale Gewichtungseinflüsse

Zunächst sollen kontextunabhängige Ansätze vorgestellt werden. Dabei ist das weitaus am häufigsten verwendete Kriterium die Häufigkeit eines Terms in der Sprache bzw. in einer Dokumentsammlung.

Die Verteilung der Wörter in der Sprache kann grob durch das Zipf'sche Gesetz beschrieben werden. Es besagt, dass das Produkt der Häufigkeit eines Wortes mit seinem Häufigkeitsrang in etwa konstant ist (vergl. Abbildungen 30 und 31 ):

Zipf'sches Gesetz

Für einen repräsentativen Textkorpus C bezeichne W(C) die Menge der Wörter, die in C vorkommen, und h(w) die Häufigkeit mit der das Wort wW(C) in dem Korpus vorkommt. r(w) bezeichne den Rangplatz von wW(C) , wenn die Wörter nach abfallender Häufigkeit sortiert werden. Dann gilt
r(w)·h(w)c = konstant wW(C)

Abb. 30: Das Zipf'sche Gesetz am Beispiel des Brown- und des LOB-Korpus'

Abb. 31: Schematische Darstellung des Zipf'schen Gesetzes

Aus dem Zipf'schen Gesetz ergibt sich auch, dass die Häufigkeit der Terme in etwa mit

h(w)^(c)/_(r(w))

abnimmt. Daraus folgt, dass eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Texte abdeckt und die große Anzahl der seltenen Wörter nur einen kleinen Anteil des Textes ausmacht (siehe Abbildung 32 ).

Abb. 32: Abdeckung eines Texts durch seine Wörter

Nimmt man nun (unrealistischerweise) an, dass jedes einzelne Wort im Korpus in etwa gleich verteilt ist, zeigt sich, dass wegen der starken Häufigkeitsunterschiede die häufigen Wörter in fast jedem Textteil erwartet werden können. Andererseits treten seltene Wörter nur in sehr wenigen Texten auf. Häufige Terme sind also keine guten Suchterme, weil sie nicht spezifisch für einen Text sind, bei seltenen Termen kann man nicht erwarten, dass sie in allen relevanten Texten vorkommen. Übrig bleiben die Terme mittlerer Häufigkeit, die zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nicht relevante Texte auszuschließen (siehe Abbildung 33 ). In der Praxis werden seltene Terme allerdings meistens nicht gesondert behandelt, d. h. es wird nur der erste Teil der Überlegung angewendet.

Anstelle der Häufigkeit von Termen wird im Information Retrieval oft die Dokumenthäufigkeit ( document frequency) verwendet: das ist die Anzahl der Dokumente, in denen ein Term auftritt. Geht man wieder von einer zufälligen Verteilung eines Wortes in einem Korpus von Dokumenten aus, so werden durch den Übergang von der Häufigkeit zur Dokumenthäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: bei der Bestimmung der Dokumenthäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

Abb. 33: Schematische Darstellung der Diskriminationskraft von Termen gegen die Häufigkeit aufgetragen (nach Salton & McGill 1983)

Während eine Stoppwortliste beim Booleschen Retrieval eine harte Häufigkeitsschranke für den Ausschluß setzt, lässt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der sogenannten inversen (oder auch invertierten) Dokumenthäufigkeit ( inverted document frequency idf) verwendet:

Dabei bezeichne D=(d₁,...,d_m) wieder die Menge der Dokumente, T=(t₁,...,t_n) die der Terme und d(j) die Anzahl der Dokumente in denen Term t_j vorkommt. In der Praxis werden auch modifizierte Formen verwendet, wie z. B.

Diesen Formeln ist gemeisam, dass ihr Wert mit wachsendem d(j) monoton fällt. Der Logarithmus dämpft große Werte, schwächt also in diesen Formeln die Gewichte seltener Terme wieder ab.

Andere mögliche globale Einflussfaktoren werden in der Praxis kaum genutzt. Ein mögliches Kriterium wäre z. B. die Verteilung eines Terms auf die Dokumente: Terme, die über die Dokumente gleichverteilt sind, sollten weniger spezifisch sein als solche, die in einzelnen Dokumenten mit hoher Häufigkeit auftreten, in anderen dagegen gar nicht.

Da die globalen Gewichtungsfaktoren nicht vom konkreten Auftreten der Terme bzw. Attribute in den einzelnen Dokumenten abhängen, können sie bei der Implementierung mit invertierten Listen im Prinzip separat gespeichert werden, bzw. aus den Positionslisten der invertierten Liste jeweils aktuell berechnet werden. Wie weit sich der zusätzliche Aufwand dafür lohnt, muss im Einzelfall entschieden werden. Insbesondere wenn zusätzliche lokale Einflüsse berücksichtigt werden, ergibt sich im Allgemeinen keine Einsparung an Speicherplatz.