| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1.3.6.3.1: Globale GewichtungseinflüsseBei den globalen oder kontextunabhängigen Gewichtungsfaktoren ist das weitaus am häufigsten verwendete Kriterium die Häufigkeit eines Terms in der Sprache bzw. in einer Dokumentensammlung. Die Verteilung der Wörter in der Sprache kann grob durch das zipfsche Gesetz beschrieben werden. Es besagt, dass das Produkt der Häufigkeit eines Worts mit seinem Häufigkeitsrang in etwa konstant ist (siehe Abbildungen 30 und 31 ): Satz 1: Zipfsches GesetzAbbildung 30: Das zipfsche Gesetz am Beispiel des Brown- und des LOB-KorpusAbbildung 31: Schematische Darstellung des zipfschen GesetzesAus dem zipfschen Gesetz ergibt sich auch, dass die Häufigkeit der Terme in etwa mit
Nimmt man nun (unrealistischerweise) an, dass jedes einzelne Wort im Korpus in etwa gleich verteilt ist, zeigt sich, dass wegen der starken Häufigkeitsunterschiede die häufigen Wörter in fast jedem Textteil erwartet werden können. Andererseits treten seltene Wörter nur in sehr wenigen Texten auf. Häufige Terme sind also keine guten Suchterme, weil sie nicht spezifisch für einen Text sind. Bei seltenen Termen kann man nicht erwarten, dass sie in allen relevanten Texten vorkommen. Übrig bleiben bei der Suche nach geeigneten Suchtermen die Terme mittlerer Häufigkeit, die zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nicht relevante Texte auszuschließen (siehe Abbildung 32 ). In der Praxis werden seltene Terme oft nicht gesondert behandelt, es wird also nur der erste Teil der Überlegung angewendet. Anstelle der Häufigkeit von Termen wird im Information Retrieval oft die Dokumenthäufigkeit (document frequency) verwendet: Das ist die Anzahl der Dokumente, in denen ein Term auftritt. Geht man wieder von einer zufälligen Verteilung eines Worts in einem Korpus von Dokumenten aus, so werden durch den Übergang von der Häufigkeit zur Dokumenthäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumenthäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal. Während eine Stoppwortliste beim booleschen Retrieval eine harte Häufigkeitsschranke für den Ausschluss setzt, lässt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency, IDF) verwendet:
Andere globale Einflussfaktoren werden in der Praxis kaum genutzt. Ein mögliches Kriterium wäre z.B. die Verteilung eines Terms auf die Dokumente: Terme, die über die Dokumente gleichmäßig verteilt sind, sollten weniger spezifisch sein als solche, die in einzelnen Dokumenten mit hoher Häufigkeit auftreten, in anderen dagegen gar nicht. Abbildung 32: Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragenDa die globalen Gewichtungsfaktoren nicht vom konkreten Auftreten der Terme bzw. Attribute in den einzelnen Dokumenten abhängen, lassen sie sich bei der Implementierung mit invertierten Listen im Prinzip separat speichern bzw. aus den Positionslisten der invertierten Liste jeweils aktuell berechnen. Wie weit sich der zusätzliche Aufwand dafür lohnt, muss im Einzelfall entschieden werden. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.