Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell -> Gewichtungsmethoden -> Globale Gewichtungseinflüsse
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

Abbildung 30: Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus


  Rang Anzahl    R*A/100000  Term
-----------------------------------
     1 138323       1,3832  the
     2  72159       1,4432  of
     3  56750       1,7025  and
     4  52941       2,1176  to
     5  46523       2,3262  a
     6  42603       2,5562  in
     7  22177       1,5524  that
     8  21210       1,6968  is
     9  20501       1,8451  was
    10  19587       1,9587  it
   100   2043       2,0430  years
   500    394       1,9700  program
  1000    207       2,0700  jones
  2000    105       2,1000  granted
  3000     67       2,0100  agencies
  4000     47       1,8800  embassy
  5000     36       1,8000  vale
 10000     14       1,4000  poisoning
 12034     11       1,3237  yell

In der dritten Spalte steht das Produkt aus Rang und Häufigkeit (Anzahl) dividiert durch 100 000. Für alle Wörter, die häufiger als 10-mal auftreten, liegt der Mittelwert für das betrachtete Produkt bei 1,697, das Minimum bei 1,250 und das Maximum bei 2,556. Die Varianz beträgt 0,077 (Standardabweichung: 0,277). Bei gleicher Häufigkeit wurden die Rangplätze nach alphabetischer Sortierung zugewiesen. Würde stattdessen der mittlere Rangplatz verwendet, wären die Abweichungen vermutlich noch kleiner. Brown- und Lob-Korpus sind zwei Textsammlungen, die für die englische Sprache repräsentativ sein sollen. Sie sind allerdings inzwischen recht alt.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell -> Gewichtungsmethoden -> Globale Gewichtungseinflüsse

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.