Schließlich soll noch das Jaccard-Maß
erwähnt werden:
sJ |
(wi,q) |
= |
n |
|
k=1 |
| wi,kqk |
|
n |
|
k=1 |
| wi,k+ |
n |
|
k=1 |
|
qk- |
n |
|
k=1 |
|
wi,kqk |
|
Man kann dieses Maß zunächst für Vektoren aus
{0,1}n
betrachten, also für Dokument- und Anfragevektoren, deren Einträge nur die Werte
0 und 1 annehmen.
Dann steht im Zähler die Anzahl der Terme aus der Anfrage, die auch im Dokument
vorkommen, also die Größe der Schnittmenge der Termmengen von Anfrage und Dokument.
Im Nenner steht die Anzahl der Terme, die in der Anfrage oder im Dokument vorkommen, also die
Größe der Vereinigungsmenge der Termmengen von
Anfrage und Dokument.
Bei der Berechnung der Ähnlichkeit zwischen zwei Dokumentvektoren ist in diesem Fall
der Nenner immer größer oder gleich
1, wenn einer der beiden Vektoren einen Eintrag mit dem Wert 1
enthält. Der Ähnlichkeitswert liegt immer zwischen 0 und 1.
Geht man aber zu allgemeinen Vektoren über, die als Einträge beliebige reelle Zahlen enthalten
können, kann der Nenner selbst für Vektoren gleich 0
werden, die ausschließlich nichtnegative Einträge haben. Dadurch ergeben sich Unstetigkeiten
in der Ähnlichkeit von Vektoren, es gibt also Orte in der Ebene, bei denen
eine beliebig kleine Änderung des Vektors eine beliebig große Änderung der Ähnlichkeit
zu einem anderen Vektor bewirkt.
Für die Berechnung der Kurven gleicher Ähnlichkeit in der Ebene ergibt sich
folgendes Bild:
ax + by |
|
a + b + x + y + ax + by |
|
= c |
y = |
a + ca + c |
|
c - cb - b |
|
x - |
c (a + b) |
|
c - cb - b |
|
Unstetigkeiten in der Ähnlichkeitsfunktion ergeben sich für die Punkte, an denen
der Nenner der Ähnlichkeitsfunktion 0 wird, also für
y = |
1 - a |
|
b - 1 |
|
x + |
a + b |
|
b - 1 |
|
In Abbildung 38
ist das für die Ebene und den Referenzvektor
(4,2)
dargestellt.
|