Korpusbasierte Verfahren [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze
Stichwörter dieser Seite	korpusbasiertes Verfahren, unabhängig, Unabhängigkeit, Stammformenreduktion, Synonymmenge, Thesaurus
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

3.5: Korpusbasierte Verfahren

Im probabilistischen Ansatz und bei der Implementierung des Inferenznetzes wurde angenommen, dass das Auftreten von Termen in der Sprache unabhängig ist, dass also die Wahrscheinlichkeit, zwei Terme im selben Dokument zu finden, nur von deren globalen Auftretenswahrscheinlichkeiten abhängt und nicht von ihrer jeweiligen "Bedeutung". Diese Annahme scheint im Allgemeinen recht unrealistisch (siehe Abbildung 91 ). Sie wurde gemacht, um Berechnungs- bzw. Schätzmöglichkeiten für andere Wahrscheinlichkeiten zu haben; ohne sie hätten keine Werte für die in den jeweiligen Ansätzen gesuchten Wahrscheinlichkeiten geschätzt werden können. Allerdings können bei starken Vereinfachungen die Schätzwerte unrealistisch werden (Cooper, 1991 [->] ).

Einige der bisher beschriebenen Methoden und Verfahren können als Ansätze gesehen werden, die Unabhängigkeitsannahmen zu vermeiden und Abhängigkeiten zwischen Termen zur Verbesserung des Retrieval zu nutzen. So kann die Grund- oder Stammformenreduktion als der Versuch aufgefasst werden, verschiedene Wörter auf einen Term abzubilden und sie damit - quasi per Definition - als identisch zu betrachten. Den gleichen Ansatz verfolgt man mit der Definition von Synonymmengen bei der Konstruktion eines Thesaurus.

Abbildung 91: Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen

Auch das Pseudo-Relevance-Feedback kann als Weg interpretiert werden, die Unabhängigkeitsannahme zu vermeiden. Man nimmt an, dass Terme die in einem Dokument vorkommen, das zu einer Anfrage ähnlich ist, ebenfalls zu der Anfrage ähnlich sind und diese daher sinnvoll erweitern können. Dabei wird als Referenz lediglich eine kleine Auswahl der Dokumente, in denen ein Term vorkommt, verwendet, nämlich die, die nach dem verwendeten Ähnlichkeitsmaß bereits besonders gut abgeschnitten haben. Beim echten Relevance Feedback wurden für diese Auswahl das Verständnis und die Beurteilung durch die Nutzenden herangezogen. Für beide Ansätze werden im Folgenden Weiterentwicklungen beschrieben.

3.5.1: Der assoziative Ansatz im IR

3.5.2: Kookurrenzverfahren

3.5.3: Anwendung im mehrsprachigen Retrieval

3.5.4: Deskriptoren bestimmen

3.5.5: Latent Semantic Indexing

3.5.6: Gewichtungsmethoden Lernen

3.5.7: Social oder Collaborative Filtering

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

3.5	Korpusbasierte Verfahren
Abb. 91	Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen
3.5.1	Der assoziative Ansatz im IR
3.5.2	Kookurrenzverfahren
3.5.2.1	Ein Machine-Learning-Ansatz
3.5.2.2	Term-Term-Matrizen
3.5.2.3	Anwendung im IR
3.5.2.4	Häufigkeit der Terme
3.5.2.5	Expansion von Termen oder Anfragen
3.5.2.6	Größe der Dokumentensammlung
3.5.2.7	Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 92	Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche
3.5.2.8	Komplexere Kookurrenzverfahren
3.5.3	Anwendung im mehrsprachigen Retrieval
Abb. 93	Ergebnisse der Studie zum mehrsprachigen Retrieval
3.5.4	Deskriptoren bestimmen
Abb. 94	Datensatz aus der Idis Datenbank
Abb. 95	Mittlere Precision-Werte für unterschiedliche Parameterwerte
Abb. 96	Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge
3.5.5	Latent Semantic Indexing
3.5.6	Gewichtungsmethoden Lernen
Abb. 97	Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley
3.5.7	Social oder Collaborative Filtering

korpusbasiertes Verfahren, unabhängig, Unabhängigkeit, Stammformenreduktion, Synonymmenge, Thesaurus, unabhängig, Information Retrieval, Kookurrenzdaten, assoziative Regel, Attribut, Dokumenthäufigkeit, Assoziationstheorie, Grundformenreduktion, computerlinguistischer Ansatz, Oberflächenform, Synonymmenge, Granularität, Ähnlichkeitsmaß, Kookurrenzverfahren, Kookurrenzmodelle, Term-Dokument-Matrix, Wissensgewinnung, Nachrichtenagentur, Routing, Kategorie, Kategorisierung, Skalarprodukt, Term-Term-Matrix, themenspezifischer assoziativer Thesaurus, Rangfolge, Anfrageerweiterung, Query Expansion, Gewichtungsmethode, IDF, Expansion, Cosinus-Maß, Tanimoto-Maß, Unabhängigkeit, Ähnlichkeitsmaß, Expansion, Testkollektion, Term-Term-Matrix, Attribut, assoziativer Thesaurus, mehrsprachige Suche, mehrsprachiges Retrieval, assoziativer Thesaurus, cross language retrieval, Schweizerische Depeschen-Agentur, Grundformenreduktion, Vektorraummodell, kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus, Latent Semantic Indexing, Term-Dokument-Matrix, Gewichtungsmethode, Dokumentvektor, Abstract, Vektorraummodell, Darmstädter Indexierungsansatz, Darmstadt Indexing Approach, DIA, Auftrittsform, relevance description, Attribut, SGML, XML, Attribut, Dokumentvektor, Ähnlichkeitsmaß, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut

Abstract, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Anfrageerweiterung, Assoziationstheorie, assoziative Regel, assoziativer Thesaurus, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Auftrittsform, computerlinguistischer Ansatz, Cosinus-Maß, cross language retrieval, Darmstadt Indexing Approach, Darmstädter Indexierungsansatz, DIA, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Expansion, Expansion, Gewichtungsmethode, Gewichtungsmethode, Granularität, GroupLense, Grundformenreduktion, Grundformenreduktion, IDF, Information Retrieval, Kategorie, Kategorisierung, Kategorisierung, kontrolliertes Vokabular, Kookurrenzdaten, Kookurrenzmodelle, Kookurrenzverfahren, korpusbasiertes Verfahren, Latent Semantic Indexing, mehrsprachige Suche, mehrsprachiges Retrieval, Nachrichtenagentur, Oberflächenform, Query Expansion, Rangfolge, relevance description, Routing, Schweizerische Depeschen-Agentur, SGML, Skalarprodukt, Stammformenreduktion, Synonymmenge, Synonymmenge, Tanimoto-Maß, Term-Dokument-Matrix, Term-Dokument-Matrix, Term-Term-Matrix, Term-Term-Matrix, Term-Term-Matrix, Testkollektion, themenspezifischer assoziativer Thesaurus, Thesaurus, Thesaurus, unabhängig, unabhängig, Unabhängigkeit, Unabhängigkeit, Vektorraummodell, Vektorraummodell, vorhersagendes Attribut, vorherzusagendes Attribut, Wissensgewinnung, XML

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.