Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Stichwörter dieser Seite unabhängig
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

Abbildung 91: Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen

tax fruit sin
income: 71.81
fiscal: 66.96
taxes: 61.99
profits: 56.67
revenue: 56.35
sales: 42.85
reduction: 41.33
file: 39.18
paying: 35.93
payments: 32.81
collection: 31.20
towns: 30.29
estimated: 29.64
finance: 29.06
net: 28.81
uniform: 27.23
corporation: 26.70
purchase: 26.37
spending: 25.13
excess: 24.21
eggs: 56.69
meat: 56.69
foods: 55.09
fresh: 54.99
seed: 52.16
sugar: 42.99
milk: 40.12
meal: 32.20
tree: 31.55
believes: 31.42
soft: 31.30
tea: 30.09
expenditure: 29.98
wine: 29.64
fish: 26.98
breakfast: 26.89
containing: 26.08
eat: 25.82
referred: 25.08
parks: 23.29
crime: 107.11
doctrine: 98.31
morality: 92.00
adam: 87.57
christ: 57.57
jesus: 54.83
suffering: 52.18
flesh: 50.89
original: 47.89
born: 45.49
burden: 39.32
consequently: 36.19
heaven: 36.19
god: 35.91
creation: 34.78
requires: 34.35
grace: 30.84
death: 30.78
moral: 30.70
darkness: 30.16

In den Spalten stehen die Terme mit einer Häufigkeit zwischen 100 und 3 100 in einem Korpus von ca. 2 Mio. Wörtern, die die stärksten Assziationen zu den Termen "tax", "fruit" und "sin" haben. Der Korpus bestand aus dem Brown- und dem LOB-Korpus. Zur Berechnung der Assoziationen wurden Kookurrenzen auf Satzebene erhoben und der Quotient aus der relativen Häufigkeit des gemeinsamen Auftretens und dem Produkt der relativen Häufigkeiten der einzelnen Terme verwendet.

Die Annahme, dass das Auftreten von Termen unabhängig sei, scheint wenig berechtigt. Sonst müssten zum einen die angegebenen Assoziationen alle nahe 1 liegen, zum anderen dürften die Wörter innerhalb einer Spalte keine größere Ähnlichkeit zueinander haben als die Wörter aus verschiedenen Spalten. Anders gesagt: Auch wenn die Wörter zwischen den Spalten beliebig gemischt werden, sollte sich die Ähnlichkeitsstruktur in der Abbildung nicht ändern.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.