Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell
Stichwörter dieser Seite Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.6.5: Ähnlichkeitsfunktionen

Beim Skalarprodukt hängen die Ähnlichkeitswerte stark von Anzahl und Größe der Einträge im Vektor ab, die ungleich 0 sind - also von der Anzahl der Terme in der Anfrage oder im Dokument. Der Maximalwert, den das Skalarprodukt zwischen einem Anfragevektor und den Dokumentvektoren einer Dokumentmenge annehmen kann, ist zunächst nur dadurch begrenzt, dass die beteiligten Vektoren nur endlich viele endliche Einträge haben.

Längere Dokumente haben statistisch gesehen daher größere Chancen, hohe Ähnlichkeitswerte zu bekommen, als kurze. Wählt man z.B. als lokale Gewichtung die Häufigkeit der Terme im Dokument, würde sich mit dem Skalarprodukt (aufgrund seiner Linearität) die Ähnlichkeit verdoppeln, wenn man den Text eines Dokuments wiederholen, also zweimal hintereinander schreiben würde, obwohl sich das im Dokument enthaltene Wissen ja nicht ändert. Andererseits ist z.B. bei Literaturdatenbanken das Format des Nachweises vorgegeben und damit auch die Länge des Abstracts eher durch äußere Restriktionen als durch die Wichtigkeit des Artikels bestimmt. Einflüsse dieser Restriktionen würden beim Skalarprodukt direkt auf die Ähnlichkeitswerte und damit auf die Retrieval-Ergebnisse durchschlagen. Aufgrund solcher Überlegungen sind viele verschiedene Ähnlichkeitsmaße entwickelt und theoretisch, experimentell und empirisch untersucht worden.

Um die Eigenschaften unterschiedlicher Ähnlichkeitsmaße theoretisch zu vergleichen, kann man sich überlegen, wie die Vektoren verteilt sind, die zu einem gegebenen Vektor wi die gleiche Ähnlichkeit haben. Jones und Furnas (1987) [->] haben das für einige Ähnlichkeitsmaße untersucht und für den zweidimensionalen Fall dargestellt. Einige Ergebnisse dieser Untersuchung werden im Folgenden beschrieben. Diese geometrische Interpretation von Ähnlichkeitsmaßen ist natürlich nur eine Sichtweise: Sie veranschaulicht die Eigenschaften im euklidischen Raum, also in der uns vertrauten Geometrie der Ebene oder des Raums. Beobachtungen, die dabei gemacht werden, können Hinweise auf Eigenschaften der Ähnlichkeitsmaße geben; sie können aber die empirische Evaluierung der Maße nicht ersetzen. Eine Untersuchung, die das Verhalten eines Maßes bei unterschiedlich langen Dokumenten bewertet, wird in Abschnitt 3.4.2 vorgestellt.

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.5.1: Das Skalarprodukt

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.5.2: Das Cosinus-Maß

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.5.3: Das Pseudo-Cosinus-Maß

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.5.4: Das Dice-Maß

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.5.5: Das Overlap-Maß

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.5.6: Das Jaccard-Maß

Bei der Betrachtung der Orte mit den höchsten Ähnlichkeitswerten muss beachtet werden, dass natürlich nur die vorhandenen Dokumente mit einer Anfrage verglichen werden. Ist die Teilmenge des Rn , in dem die Dokumentvektoren tatsächlich liegen, geeignet gewählt (bzw. wird sie von den Dokumentvektoren geeignet erzeugt), können auch diese Maße durchaus sinnvoll sein. Letztendlich müssen empirische Untersuchungen entscheiden, ob ein Maß für eine gegebene Sammlung und ein gegebenes Retrieval-System gute Ergebnisse liefert.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.6.5Ähnlichkeitsfunktionen
1.3.6.5.1Das Skalarprodukt
Abb. 33 Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2Das Cosinus-Maß
Abb. 34 Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3Das Pseudo-Cosinus-Maß
Abb. 35 Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4Das Dice-Maß
Abb. 36 Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5Das Overlap-Maß
Abb. 37 Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6Das Jaccard-Maß
Abb. 38 Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Cosinus-Maß, Dice-Maß, Jaccard-Maß, Overlap-Maß, Pseudo-Cosinus-Maß, Skalarprodukt, Skalarprodukt, Skalarprodukt

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.