|
1.3.6: Das Vektorraummodell
In den ersten vier Abschnitten dieses Kapitels wurden verschiedene Ansätze
vorgestellt, mit denen Terme konstruiert werden können, um Dokumente damit zu indexieren,
also um deren Inhalt in einer für die Suche geeigneten Form zu beschreiben:
Das boolesche Retrieval (Abschnitt 1.3.1
) verwendet
Verfahren, die auf dem Auftauchen von Zeichenketten in Texten
beruhen - oder allgemeiner darauf, dass Attribute auf
Dokumenten bestimmte Werte annehmen.
Die in Abschnitt 1.3.2
beschriebenen
Reduktionsmethoden wurden entwickelt, um alle Formen eines Worts oder Stamms
zu einem Term zusammenzufassen.
Die Abschnitte über Klassifikationen (1.3.3
) und
Thesauren (1.3.4
) stellen Methoden vor, mit denen
Bezeichner gebildet werden können, die
Wissensgebiete bzw. Begriffe und deren Bedeutung beschreiben und
dabei z.B. verschiedene umgangssprachliche Wörter
zusammenfassen.
Um Anfragen zu bearbeiten,
wurde im booleschen Retrieval untersucht, ob die Terme der Anfrage in der dort angegebenen
Form als Indexterme eines Dokuments auftreten.
In diesem Abschnitt geht es nun um Verfahren, die die
Terme gewichten, die in einem Dokument auftreten.
Dadurch kann die Wichtigkeit von Termen für die Beschreibung des
Inhalts eines Dokuments berücksichtigt
werden. Das kann zum einen dadurch geschehen,
dass den Termen von vornherein unterschiedliche Gewichtungen gegeben
werden, zum anderen können aus der Art des Auftretens in den
Dokumenten unterschiedliche Gewichtungen abgeleitet
werden.
Um die Darstellung von Dokumenten durch gewichtete Terme im
Information Retrieval nutzen zu können, müssen auch
geeignete Methoden entwickelt werden, um zu einer Anfrage die
"richtigen" Dokumente zu finden. Das kann mit Hilfe
von Ähnlichkeitsmaßen geschehen, die in Abschnitt 1.3.6.5
genauer beschrieben werden.
|
|
Dieser Abschnitt und seine Unterabschnitte |
Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
Indexterm, Ähnlichkeitsmaß, Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste, boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt, Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document
frequency, Relevance Feedback, Dokumentvektor, Relevanzurteil, Relevanz, Ähnlichkeitssuche, Query by example, Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß, Vektorraummodell, TF-IDF, Thesaurus, Cluster-Verfahren, Single-Pass-Cluster-Verfahren, Dokumentvektor |
Abdeckung, Abstract, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitssuche, Anfragevektor, Anfragevektor, Attribut, Between-Object, boolesches Retrieval, Cluster-Verfahren, Cosinus-Maß, Dice-Maß, Diskriminationskraft, document frequency, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Gewicht, Gewichtungsmethode, Gewichtungsmethode, IDF, IDF, Indexterm, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, invertierte Liste, Jaccard-Maß, kontrolliertes Vokabular, Overlap-Maß, Pseudo-Cosinus-Maß, Query, Query by example, Query-Vektor, Query-Vektor, Rangfolge, Rangfolge, Relevance Feedback, Relevanz, Relevanzurteil, Schwelle, Schwellwertfunktion, SGML, Single-Pass-Cluster-Verfahren, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, term frequency, term frequency-inverted document
frequency, Termhäufigkeit, Termhäufigkeit, TF, TF, TF-IDF, TF-IDF, Thesaurus, Thesaurus, Vektorraummodell, Vektorraummodell, Vektorraummodell mit Attributen, Within-Object, zipfsches Gesetzt |
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für
die Inhalte und die Rechte der Online-Version liegen beim Autor
Reginald Ferber, Münster (Westf).
Die Rechte der gedruckten Version
beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder
Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors
Reginald Ferber
bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen
der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen.
Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung
für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten
ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.