|
3.5: Korpusbasierte Verfahren
Im probabilistischen Ansatz und bei der Implementierung des
Inferenznetzes wurde angenommen, dass das Auftreten von Termen in der
Sprache unabhängig ist,
dass also die Wahrscheinlichkeit, zwei Terme im selben Dokument
zu finden, nur von deren globalen Auftretenswahrscheinlichkeiten
abhängt und nicht von ihrer jeweiligen
"Bedeutung". Diese Annahme scheint im Allgemeinen recht
unrealistisch (siehe Abbildung 91
).
Sie wurde gemacht, um Berechnungs- bzw.
Schätzmöglichkeiten für andere Wahrscheinlichkeiten zu
haben; ohne sie hätten keine Werte für die
in den jeweiligen Ansätzen gesuchten Wahrscheinlichkeiten
geschätzt werden können. Allerdings können
bei starken Vereinfachungen die Schätzwerte unrealistisch werden
(Cooper, 1991 [->]
).
Einige der bisher beschriebenen Methoden und Verfahren können
als Ansätze gesehen werden, die Unabhängigkeitsannahmen zu
vermeiden und Abhängigkeiten zwischen Termen zur Verbesserung des
Retrieval zu nutzen. So kann die Grund- oder Stammformenreduktion als
der Versuch aufgefasst werden, verschiedene Wörter auf einen Term
abzubilden und sie damit - quasi per Definition - als identisch zu
betrachten. Den gleichen Ansatz verfolgt man mit der Definition von
Synonymmengen bei der Konstruktion eines Thesaurus.
Auch das Pseudo-Relevance-Feedback kann als Weg interpretiert werden, die
Unabhängigkeitsannahme
zu vermeiden. Man nimmt an, dass Terme die in einem Dokument vorkommen,
das zu einer Anfrage ähnlich ist, ebenfalls zu der Anfrage
ähnlich sind und diese daher sinnvoll erweitern können. Dabei
wird als Referenz lediglich eine kleine Auswahl der Dokumente, in denen
ein Term vorkommt, verwendet, nämlich die, die nach dem verwendeten
Ähnlichkeitsmaß
bereits besonders gut abgeschnitten haben.
Beim echten Relevance Feedback wurden für diese Auswahl das Verständnis und die Beurteilung
durch die Nutzenden herangezogen. Für beide Ansätze werden im Folgenden Weiterentwicklungen
beschrieben.
|
|
Dieser Abschnitt und seine Unterabschnitte |
Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
korpusbasiertes Verfahren, unabhängig, Unabhängigkeit, Stammformenreduktion, Synonymmenge, Thesaurus, unabhängig, Information Retrieval, Kookurrenzdaten, assoziative Regel, Attribut, Dokumenthäufigkeit, Assoziationstheorie, Grundformenreduktion, computerlinguistischer Ansatz, Oberflächenform, Synonymmenge, Granularität, Ähnlichkeitsmaß, Kookurrenzverfahren, Kookurrenzmodelle, Term-Dokument-Matrix, Wissensgewinnung, Nachrichtenagentur, Routing, Kategorie, Kategorisierung, Skalarprodukt, Term-Term-Matrix, themenspezifischer assoziativer Thesaurus, Rangfolge, Anfrageerweiterung, Query Expansion, Gewichtungsmethode, IDF, Expansion, Cosinus-Maß, Tanimoto-Maß, Unabhängigkeit, Ähnlichkeitsmaß, Expansion, Testkollektion, Term-Term-Matrix, Attribut, assoziativer Thesaurus, mehrsprachige Suche, mehrsprachiges Retrieval, assoziativer Thesaurus, cross language
retrieval, Schweizerische Depeschen-Agentur, Grundformenreduktion, Vektorraummodell, kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus, Latent Semantic Indexing, Term-Dokument-Matrix, Gewichtungsmethode, Dokumentvektor, Abstract, Vektorraummodell, Darmstädter Indexierungsansatz, Darmstadt Indexing
Approach, DIA, Auftrittsform, relevance description, Attribut, SGML, XML, Attribut, Dokumentvektor, Ähnlichkeitsmaß, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut |
Abstract, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Anfrageerweiterung, Assoziationstheorie, assoziative Regel, assoziativer Thesaurus, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Auftrittsform, computerlinguistischer Ansatz, Cosinus-Maß, cross language
retrieval, Darmstadt Indexing
Approach, Darmstädter Indexierungsansatz, DIA, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Expansion, Expansion, Gewichtungsmethode, Gewichtungsmethode, Granularität, GroupLense, Grundformenreduktion, Grundformenreduktion, IDF, Information Retrieval, Kategorie, Kategorisierung, Kategorisierung, kontrolliertes Vokabular, Kookurrenzdaten, Kookurrenzmodelle, Kookurrenzverfahren, korpusbasiertes Verfahren, Latent Semantic Indexing, mehrsprachige Suche, mehrsprachiges Retrieval, Nachrichtenagentur, Oberflächenform, Query Expansion, Rangfolge, relevance description, Routing, Schweizerische Depeschen-Agentur, SGML, Skalarprodukt, Stammformenreduktion, Synonymmenge, Synonymmenge, Tanimoto-Maß, Term-Dokument-Matrix, Term-Dokument-Matrix, Term-Term-Matrix, Term-Term-Matrix, Term-Term-Matrix, Testkollektion, themenspezifischer assoziativer Thesaurus, Thesaurus, Thesaurus, unabhängig, unabhängig, Unabhängigkeit, Unabhängigkeit, Vektorraummodell, Vektorraummodell, vorhersagendes Attribut, vorherzusagendes Attribut, Wissensgewinnung, XML |
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für
die Inhalte und die Rechte der Online-Version liegen beim Autor
Reginald Ferber, Münster (Westf).
Die Rechte der gedruckten Version
beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder
Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors
Reginald Ferber
bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen
der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen.
Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung
für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten
ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.