Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell -> Ähnlichkeitsfunktionen
Stichwörter dieser Seite Jaccard-Maß
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.6.5.6: Das Jaccard-Maß

Schließlich soll noch das Jaccard-Maß erwähnt werden:
sJ (wi,q) =
n
Mathematisches Zeichen: Summe
k=1
wi,kqk
Leere Abbildung mit der der Bruchstrich erzeugt wird
n
Mathematisches Zeichen: Summe
k=1
wi,k+
n
Mathematisches Zeichen: Summe
k=1
qk-
n
Mathematisches Zeichen: Summe
k=1
wi,kqk
Man kann dieses Maß zunächst für Vektoren aus {0,1}n betrachten, also für Dokument- und Anfragevektoren, deren Einträge nur die Werte 0 und 1 annehmen. Dann steht im Zähler die Anzahl der Terme aus der Anfrage, die auch im Dokument vorkommen, also die Größe der Schnittmenge der Termmengen von Anfrage und Dokument. Im Nenner steht die Anzahl der Terme, die in der Anfrage oder im Dokument vorkommen, also die Größe der Vereinigungsmenge der Termmengen von Anfrage und Dokument. Bei der Berechnung der Ähnlichkeit zwischen zwei Dokumentvektoren ist in diesem Fall der Nenner immer größer oder gleich 1, wenn einer der beiden Vektoren einen Eintrag mit dem Wert 1 enthält. Der Ähnlichkeitswert liegt immer zwischen 0 und 1.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 38: Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene

Geht man aber zu allgemeinen Vektoren über, die als Einträge beliebige reelle Zahlen enthalten können, kann der Nenner selbst für Vektoren gleich 0 werden, die ausschließlich nichtnegative Einträge haben. Dadurch ergeben sich Unstetigkeiten in der Ähnlichkeit von Vektoren, es gibt also Orte in der Ebene, bei denen eine beliebig kleine Änderung des Vektors eine beliebig große Änderung der Ähnlichkeit zu einem anderen Vektor bewirkt.

Für die Berechnung der Kurven gleicher Ähnlichkeit in der Ebene ergibt sich folgendes Bild:
ax + by
Leere Abbildung mit der der Bruchstrich erzeugt wird
a + b + x + y + ax + by
= c
y =
a + ca + c
Leere Abbildung mit der der Bruchstrich erzeugt wird
c - cb - b
x -
c (a + b)
Leere Abbildung mit der der Bruchstrich erzeugt wird
c - cb - b
Unstetigkeiten in der Ähnlichkeitsfunktion ergeben sich für die Punkte, an denen der Nenner der Ähnlichkeitsfunktion 0 wird, also für
y =
1 - a
Leere Abbildung mit der der Bruchstrich erzeugt wird
b - 1
x +
a + b
Leere Abbildung mit der der Bruchstrich erzeugt wird
b - 1
In Abbildung 38 ist das für die Ebene und den Referenzvektor (4,2) dargestellt.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell -> Ähnlichkeitsfunktionen
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.6.5.6Das Jaccard-Maß
Abb. 38 Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
Jaccard-Maß Jaccard-Maß

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt. Letzte Änderung: 5-06-2007