Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze
Stichwörter dieser Seite korpusbasiertes Verfahren, unabhängig, Unabhängigkeit, Stammformenreduktion, Synonymmenge, Thesaurus
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5: Korpusbasierte Verfahren

Im probabilistischen Ansatz und bei der Implementierung des Inferenznetzes wurde angenommen, dass das Auftreten von Termen in der Sprache unabhängig ist, dass also die Wahrscheinlichkeit, zwei Terme im selben Dokument zu finden, nur von deren globalen Auftretenswahrscheinlichkeiten abhängt und nicht von ihrer jeweiligen "Bedeutung". Diese Annahme scheint im Allgemeinen recht unrealistisch (siehe Abbildung 91 ). Sie wurde gemacht, um Berechnungs- bzw. Schätzmöglichkeiten für andere Wahrscheinlichkeiten zu haben; ohne sie hätten keine Werte für die in den jeweiligen Ansätzen gesuchten Wahrscheinlichkeiten geschätzt werden können. Allerdings können bei starken Vereinfachungen die Schätzwerte unrealistisch werden (Cooper, 1991 [->] ).

Einige der bisher beschriebenen Methoden und Verfahren können als Ansätze gesehen werden, die Unabhängigkeitsannahmen zu vermeiden und Abhängigkeiten zwischen Termen zur Verbesserung des Retrieval zu nutzen. So kann die Grund- oder Stammformenreduktion als der Versuch aufgefasst werden, verschiedene Wörter auf einen Term abzubilden und sie damit - quasi per Definition - als identisch zu betrachten. Den gleichen Ansatz verfolgt man mit der Definition von Synonymmengen bei der Konstruktion eines Thesaurus.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 91: Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen

Auch das Pseudo-Relevance-Feedback kann als Weg interpretiert werden, die Unabhängigkeitsannahme zu vermeiden. Man nimmt an, dass Terme die in einem Dokument vorkommen, das zu einer Anfrage ähnlich ist, ebenfalls zu der Anfrage ähnlich sind und diese daher sinnvoll erweitern können. Dabei wird als Referenz lediglich eine kleine Auswahl der Dokumente, in denen ein Term vorkommt, verwendet, nämlich die, die nach dem verwendeten Ähnlichkeitsmaß bereits besonders gut abgeschnitten haben. Beim echten Relevance Feedback wurden für diese Auswahl das Verständnis und die Beurteilung durch die Nutzenden herangezogen. Für beide Ansätze werden im Folgenden Weiterentwicklungen beschrieben.

Pfeil als Kennzeichnung einer Unterueberschrift 3.5.1: Der assoziative Ansatz im IR

Pfeil als Kennzeichnung einer Unterueberschrift 3.5.2: Kookurrenzverfahren

Pfeil als Kennzeichnung einer Unterueberschrift 3.5.3: Anwendung im mehrsprachigen Retrieval

Pfeil als Kennzeichnung einer Unterueberschrift 3.5.4: Deskriptoren bestimmen

Pfeil als Kennzeichnung einer Unterueberschrift 3.5.5: Latent Semantic Indexing

Pfeil als Kennzeichnung einer Unterueberschrift 3.5.6: Gewichtungsmethoden Lernen

Pfeil als Kennzeichnung einer Unterueberschrift 3.5.7: Social oder Collaborative Filtering

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5Korpusbasierte Verfahren
Abb. 91 Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen
3.5.1Der assoziative Ansatz im IR
3.5.2Kookurrenzverfahren
3.5.2.1Ein Machine-Learning-Ansatz
3.5.2.2Term-Term-Matrizen
3.5.2.3Anwendung im IR
3.5.2.4Häufigkeit der Terme
3.5.2.5Expansion von Termen oder Anfragen
3.5.2.6Größe der Dokumentensammlung
3.5.2.7Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 92 Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche
3.5.2.8Komplexere Kookurrenzverfahren
3.5.3Anwendung im mehrsprachigen Retrieval
Abb. 93 Ergebnisse der Studie zum mehrsprachigen Retrieval
3.5.4Deskriptoren bestimmen
Abb. 94 Datensatz aus der Idis Datenbank
Abb. 95 Mittlere Precision-Werte für unterschiedliche Parameterwerte
Abb. 96 Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge
3.5.5Latent Semantic Indexing
3.5.6Gewichtungsmethoden Lernen
Abb. 97 Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley
3.5.7Social oder Collaborative Filtering
korpusbasiertes Verfahren, unabhängig, Unabhängigkeit, Stammformenreduktion, Synonymmenge, Thesaurus, unabhängig, Information Retrieval, Kookurrenzdaten, assoziative Regel, Attribut, Dokumenthäufigkeit, Assoziationstheorie, Grundformenreduktion, computerlinguistischer Ansatz, Oberflächenform, Synonymmenge, Granularität, Ähnlichkeitsmaß, Kookurrenzverfahren, Kookurrenzmodelle, Term-Dokument-Matrix, Wissensgewinnung, Nachrichtenagentur, Routing, Kategorie, Kategorisierung, Skalarprodukt, Term-Term-Matrix, themenspezifischer assoziativer Thesaurus, Rangfolge, Anfrageerweiterung, Query Expansion, Gewichtungsmethode, IDF, Expansion, Cosinus-Maß, Tanimoto-Maß, Unabhängigkeit, Ähnlichkeitsmaß, Expansion, Testkollektion, Term-Term-Matrix, Attribut, assoziativer Thesaurus, mehrsprachige Suche, mehrsprachiges Retrieval, assoziativer Thesaurus, cross language retrieval, Schweizerische Depeschen-Agentur, Grundformenreduktion, Vektorraummodell, kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus, Latent Semantic Indexing, Term-Dokument-Matrix, Gewichtungsmethode, Dokumentvektor, Abstract, Vektorraummodell, Darmstädter Indexierungsansatz, Darmstadt Indexing Approach, DIA, Auftrittsform, relevance description, Attribut, SGML, XML, Attribut, Dokumentvektor, Ähnlichkeitsmaß, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut Abstract, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Anfrageerweiterung, Assoziationstheorie, assoziative Regel, assoziativer Thesaurus, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Auftrittsform, computerlinguistischer Ansatz, Cosinus-Maß, cross language retrieval, Darmstadt Indexing Approach, Darmstädter Indexierungsansatz, DIA, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Expansion, Expansion, Gewichtungsmethode, Gewichtungsmethode, Granularität, GroupLense, Grundformenreduktion, Grundformenreduktion, IDF, Information Retrieval, Kategorie, Kategorisierung, Kategorisierung, kontrolliertes Vokabular, Kookurrenzdaten, Kookurrenzmodelle, Kookurrenzverfahren, korpusbasiertes Verfahren, Latent Semantic Indexing, mehrsprachige Suche, mehrsprachiges Retrieval, Nachrichtenagentur, Oberflächenform, Query Expansion, Rangfolge, relevance description, Routing, Schweizerische Depeschen-Agentur, SGML, Skalarprodukt, Stammformenreduktion, Synonymmenge, Synonymmenge, Tanimoto-Maß, Term-Dokument-Matrix, Term-Dokument-Matrix, Term-Term-Matrix, Term-Term-Matrix, Term-Term-Matrix, Testkollektion, themenspezifischer assoziativer Thesaurus, Thesaurus, Thesaurus, unabhängig, unabhängig, Unabhängigkeit, Unabhängigkeit, Vektorraummodell, Vektorraummodell, vorhersagendes Attribut, vorherzusagendes Attribut, Wissensgewinnung, XML

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.