|
... begünstigt lange Dokumente, wenn nur die Häufigkeit als Gewicht verwendet wird. Schreibt man den gleichen Text zweimal hintereinander, ergibt sich der doppelte Ähnlichkeitswert.
... ist unabhängig von der Länge der Dokumente. Es berücksichtigt nur das Verhältnis der Gewichte zueinander.
Seine Werte liegen immer im Intervall [-1,1]. Die beiden Wurzeln im Nenner sind die euklidischen Längen der Vektoren, das Maß also das Skalarprodukt der normierten Vektoren.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Reginald Ferber, Münster (Westf): Automatische Generierung von Inhaltsrepräsentationen FH Darmstadt-Dieburg, 2003-07-02, http://information-retrieval.de/ferber/fh-darmstadt/html/index.html |