4.4.2.5: Größe der Dokumentensammlung
Die Größe der Dokumentensammlungen, aufgrund derer
Ähnlichkeitsmaße berechnet wurden, variiert von unter 100 (Giuliano
& Jones 1963 [->]) bis
zu ca. 27 000.
Das hat zum einen technische Gründe, zum anderen
wurden Sammlungen verwendet, zu denen Relevanzeinschätzungen
vorliegen. Diese Anforderungen zwingen dazu, die Größe der
Sammlungen zu beschränken. Es hat sich aber gezeigt, dass die Güte der
Simulation sprachlicher Leistungen aus Kookurrenzdaten stark von der
Größe der zugrundeliegenden Korpora abhängt (Rapp
1991 [->], Rapp 1993 [->], Wettler, Rapp & Ferber 1993 [->]).
© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber