Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren
Stichwörter dieser Seite Indexterm, Ähnlichkeitsmaß
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.6: Das Vektorraummodell

In den ersten vier Abschnitten dieses Kapitels wurden verschiedene Ansätze vorgestellt, mit denen Terme konstruiert werden können, um Dokumente damit zu indexieren, also um deren Inhalt in einer für die Suche geeigneten Form zu beschreiben: Das boolesche Retrieval (Abschnitt 1.3.1 ) verwendet Verfahren, die auf dem Auftauchen von Zeichenketten in Texten beruhen - oder allgemeiner darauf, dass Attribute auf Dokumenten bestimmte Werte annehmen. Die in Abschnitt 1.3.2 beschriebenen Reduktionsmethoden wurden entwickelt, um alle Formen eines Worts oder Stamms zu einem Term zusammenzufassen. Die Abschnitte über Klassifikationen (1.3.3 ) und Thesauren (1.3.4 ) stellen Methoden vor, mit denen Bezeichner gebildet werden können, die Wissensgebiete bzw. Begriffe und deren Bedeutung beschreiben und dabei z.B. verschiedene umgangssprachliche Wörter zusammenfassen. Um Anfragen zu bearbeiten, wurde im booleschen Retrieval untersucht, ob die Terme der Anfrage in der dort angegebenen Form als Indexterme eines Dokuments auftreten.

In diesem Abschnitt geht es nun um Verfahren, die die Terme gewichten, die in einem Dokument auftreten. Dadurch kann die Wichtigkeit von Termen für die Beschreibung des Inhalts eines Dokuments berücksichtigt werden. Das kann zum einen dadurch geschehen, dass den Termen von vornherein unterschiedliche Gewichtungen gegeben werden, zum anderen können aus der Art des Auftretens in den Dokumenten unterschiedliche Gewichtungen abgeleitet werden.

Um die Darstellung von Dokumenten durch gewichtete Terme im Information Retrieval nutzen zu können, müssen auch geeignete Methoden entwickelt werden, um zu einer Anfrage die "richtigen" Dokumente zu finden. Das kann mit Hilfe von Ähnlichkeitsmaßen geschehen, die in Abschnitt 1.3.6.5 genauer beschrieben werden.

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.1: Das Modell

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.2: Vektorraummodell und boolesches Retrieval

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.3: Gewichtungsmethoden

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.4: Relevance Feedback

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.5: Ähnlichkeitsfunktionen

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6.6: Das Retrieval-System SMART

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.6Das Vektorraummodell
1.3.6.1Das Modell
Def. 3 Vektorraummodell
Abb. 29 Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4 Vektorraummodell mit Attributen
1.3.6.2Vektorraummodell und boolesches Retrieval
Def. 5 Skalarprodukt
1.3.6.3Gewichtungsmethoden
1.3.6.3.1Globale Gewichtungseinflüsse
Satz 1 Zipfsches Gesetz
Abb. 30 Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31 Schematische Darstellung des zipfschen Gesetzes
Abb. 32 Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2Lokale Gewichtungseinflüsse
1.3.6.4Relevance Feedback
1.3.6.5Ähnlichkeitsfunktionen
1.3.6.5.1Das Skalarprodukt
Abb. 33 Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2Das Cosinus-Maß
Abb. 34 Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3Das Pseudo-Cosinus-Maß
Abb. 35 Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4Das Dice-Maß
Abb. 36 Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5Das Overlap-Maß
Abb. 37 Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6Das Jaccard-Maß
Abb. 38 Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6Das Retrieval-System SMART
Alg. 1 Single-Pass-Cluster-Verfahren
Indexterm, Ähnlichkeitsmaß, Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste, boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt, Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency, Relevance Feedback, Dokumentvektor, Relevanzurteil, Relevanz, Ähnlichkeitssuche, Query by example, Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß, Vektorraummodell, TF-IDF, Thesaurus, Cluster-Verfahren, Single-Pass-Cluster-Verfahren, Dokumentvektor Abdeckung, Abstract, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitssuche, Anfragevektor, Anfragevektor, Attribut, Between-Object, boolesches Retrieval, Cluster-Verfahren, Cosinus-Maß, Dice-Maß, Diskriminationskraft, document frequency, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Gewicht, Gewichtungsmethode, Gewichtungsmethode, IDF, IDF, Indexterm, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, invertierte Liste, Jaccard-Maß, kontrolliertes Vokabular, Overlap-Maß, Pseudo-Cosinus-Maß, Query, Query by example, Query-Vektor, Query-Vektor, Rangfolge, Rangfolge, Relevance Feedback, Relevanz, Relevanzurteil, Schwelle, Schwellwertfunktion, SGML, Single-Pass-Cluster-Verfahren, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, term frequency, term frequency-inverted document frequency, Termhäufigkeit, Termhäufigkeit, TF, TF, TF-IDF, TF-IDF, Thesaurus, Thesaurus, Vektorraummodell, Vektorraummodell, Vektorraummodell mit Attributen, Within-Object, zipfsches Gesetzt

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.