Das Vektorraummodell [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren
Stichwörter dieser Seite	Indexterm, Ähnlichkeitsmaß
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.6: Das Vektorraummodell

In den ersten vier Abschnitten dieses Kapitels wurden verschiedene Ansätze vorgestellt, mit denen Terme konstruiert werden können, um Dokumente damit zu indexieren, also um deren Inhalt in einer für die Suche geeigneten Form zu beschreiben: Das boolesche Retrieval (Abschnitt 1.3.1 ) verwendet Verfahren, die auf dem Auftauchen von Zeichenketten in Texten beruhen - oder allgemeiner darauf, dass Attribute auf Dokumenten bestimmte Werte annehmen. Die in Abschnitt 1.3.2 beschriebenen Reduktionsmethoden wurden entwickelt, um alle Formen eines Worts oder Stamms zu einem Term zusammenzufassen. Die Abschnitte über Klassifikationen (1.3.3 ) und Thesauren (1.3.4 ) stellen Methoden vor, mit denen Bezeichner gebildet werden können, die Wissensgebiete bzw. Begriffe und deren Bedeutung beschreiben und dabei z.B. verschiedene umgangssprachliche Wörter zusammenfassen. Um Anfragen zu bearbeiten, wurde im booleschen Retrieval untersucht, ob die Terme der Anfrage in der dort angegebenen Form als Indexterme eines Dokuments auftreten.

In diesem Abschnitt geht es nun um Verfahren, die die Terme gewichten, die in einem Dokument auftreten. Dadurch kann die Wichtigkeit von Termen für die Beschreibung des Inhalts eines Dokuments berücksichtigt werden. Das kann zum einen dadurch geschehen, dass den Termen von vornherein unterschiedliche Gewichtungen gegeben werden, zum anderen können aus der Art des Auftretens in den Dokumenten unterschiedliche Gewichtungen abgeleitet werden.

Um die Darstellung von Dokumenten durch gewichtete Terme im Information Retrieval nutzen zu können, müssen auch geeignete Methoden entwickelt werden, um zu einer Anfrage die "richtigen" Dokumente zu finden. Das kann mit Hilfe von Ähnlichkeitsmaßen geschehen, die in Abschnitt 1.3.6.5 genauer beschrieben werden.

1.3.6.1: Das Modell

1.3.6.2: Vektorraummodell und boolesches Retrieval

1.3.6.3: Gewichtungsmethoden

1.3.6.4: Relevance Feedback

1.3.6.5: Ähnlichkeitsfunktionen

1.3.6.6: Das Retrieval-System SMART

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.6	Das Vektorraummodell
1.3.6.1	Das Modell
Def. 3	Vektorraummodell
Abb. 29	Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4	Vektorraummodell mit Attributen
1.3.6.2	Vektorraummodell und boolesches Retrieval
Def. 5	Skalarprodukt
1.3.6.3	Gewichtungsmethoden
1.3.6.3.1	Globale Gewichtungseinflüsse
Satz 1	Zipfsches Gesetz
Abb. 30	Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31	Schematische Darstellung des zipfschen Gesetzes
Abb. 32	Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2	Lokale Gewichtungseinflüsse
1.3.6.4	Relevance Feedback
1.3.6.5	Ähnlichkeitsfunktionen
1.3.6.5.1	Das Skalarprodukt
Abb. 33	Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2	Das Cosinus-Maß
Abb. 34	Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3	Das Pseudo-Cosinus-Maß
Abb. 35	Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4	Das Dice-Maß
Abb. 36	Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5	Das Overlap-Maß
Abb. 37	Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6	Das Jaccard-Maß
Abb. 38	Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6	Das Retrieval-System SMART
Alg. 1	Single-Pass-Cluster-Verfahren

Indexterm, Ähnlichkeitsmaß, Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste, boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt, Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency, Relevance Feedback, Dokumentvektor, Relevanzurteil, Relevanz, Ähnlichkeitssuche, Query by example, Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß, Vektorraummodell, TF-IDF, Thesaurus, Cluster-Verfahren, Single-Pass-Cluster-Verfahren, Dokumentvektor

Abdeckung, Abstract, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitssuche, Anfragevektor, Anfragevektor, Attribut, Between-Object, boolesches Retrieval, Cluster-Verfahren, Cosinus-Maß, Dice-Maß, Diskriminationskraft, document frequency, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Gewicht, Gewichtungsmethode, Gewichtungsmethode, IDF, IDF, Indexterm, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, invertierte Liste, Jaccard-Maß, kontrolliertes Vokabular, Overlap-Maß, Pseudo-Cosinus-Maß, Query, Query by example, Query-Vektor, Query-Vektor, Rangfolge, Rangfolge, Relevance Feedback, Relevanz, Relevanzurteil, Schwelle, Schwellwertfunktion, SGML, Single-Pass-Cluster-Verfahren, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, term frequency, term frequency-inverted document frequency, Termhäufigkeit, Termhäufigkeit, TF, TF, TF-IDF, TF-IDF, Thesaurus, Thesaurus, Vektorraummodell, Vektorraummodell, Vektorraummodell mit Attributen, Within-Object, zipfsches Gesetzt

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.