ZURÜCK

6.1.2.6: Größe der Dokumentsammlung

Die Größe der Dokumentsammlungen, aufgrund derer Ähnlichkeitsmaße berechnet wurden, variiert in den von Peat und Willet verwendeten Untersuchungen von unter 100 (Giuliano & Jones 1963 [->]) bis zu ca. 27 000. Das hat zum einen technische Gründe, zum anderen wurden Testkollektionen mit Relevanzeinschätzungen verwendet, die zur Zeit der Untersuchungen nur in diesen beschränkten Größen vorlagen. Diese Anforderungen zwingen dazu, die Größe der Sammlungen zu beschränken. Es hat sich aber gezeigt, dass die Güte der Simulation sprachlicher Leistungen aus Kookurrenzdaten stark von der Größe der zugrundeliegenden Korpora abhängt (Rapp 1991 [->], Rapp 1993 [->], Wettler, Rapp & Ferber 1993 [->]).


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber