| ||||||||||
Abbildung 30: Das zipfsche Gesetz am Beispiel des Brown- und des LOB-KorpusRang Anzahl R*A/100000 Term ----------------------------------- 1 138323 1,3832 the 2 72159 1,4432 of 3 56750 1,7025 and 4 52941 2,1176 to 5 46523 2,3262 a 6 42603 2,5562 in 7 22177 1,5524 that 8 21210 1,6968 is 9 20501 1,8451 was 10 19587 1,9587 it 100 2043 2,0430 years 500 394 1,9700 program 1000 207 2,0700 jones 2000 105 2,1000 granted 3000 67 2,0100 agencies 4000 47 1,8800 embassy 5000 36 1,8000 vale 10000 14 1,4000 poisoning 12034 11 1,3237 yell In der dritten Spalte steht das Produkt aus Rang und Häufigkeit (Anzahl) dividiert durch 100 000. Für alle Wörter, die häufiger als 10-mal auftreten, liegt der Mittelwert für das betrachtete Produkt bei 1,697, das Minimum bei 1,250 und das Maximum bei 2,556. Die Varianz beträgt 0,077 (Standardabweichung: 0,277). Bei gleicher Häufigkeit wurden die Rangplätze nach alphabetischer Sortierung zugewiesen. Würde stattdessen der mittlere Rangplatz verwendet, wären die Abweichungen vermutlich noch kleiner. Brown- und Lob-Korpus sind zwei Textsammlungen, die für die englische Sprache repräsentativ sein sollen. Sie sind allerdings inzwischen recht alt. | ||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.