Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval
Stichwörter dieser Seite Information Retrieval, Vektorraummodell, TREC, Ähnlichkeitsmaß
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3: Erweiterte Retrieval-Ansätze

In den ersten beiden Teilen wurden klassische Methoden und Verfahren des Information Retrieval und der Wissensgewinnung dargestellt und teilweise mit benachbarten Fachgebieten in Verbindung gesetzt.

In diesem Teil werden weitere theoretische Modellansätze und experimentelle Systeme vorgestellt. Dabei zeigt sich, dass die theoretischen Modelle schnell so komplex werden, dass sie sich auch mit modernen Rechnern und großen Testkollektionen nicht implementieren lassen, ohne starke Vereinfachungen anzunehmen. Diese Vereinfachungen führen häufig dazu, dass die abgeleiteten Systeme auch auf das Vektorraummodell zurückgeführt werden können und so dem Anspruch, ein weitergehendes Modell zu implementieren, nur bedingt gerecht werden.

Andererseits haben die TREC-Experimente gezeigt, dass sich durch geschickt angewendete Heuristiken die Ergebnisse stark verbessern lassen. Dabei haben sich einige Vorgehensweisen besonders bewährt. Diese erfolgreichen Methoden und Ähnlichkeitsmaße wurden daraufhin von vielen der an TREC teilnehmenden Systeme übernommen.

Wo es sinnvoll erscheint, wird auch in diesem Teil wieder kurz in Theorien aus dem Umfeld des Information Retrieval eingeführt, um Beziehungen zu den Nachbargebieten herzustellen.

Pfeil als Kennzeichnung einer Unterueberschrift 3.1: Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren

Pfeil als Kennzeichnung einer Unterueberschrift 3.2: Der probabilistische Retrieval-Ansatz

Pfeil als Kennzeichnung einer Unterueberschrift 3.3: Logikbasierte Modelle des Information Retrieval

Pfeil als Kennzeichnung einer Unterueberschrift 3.4: Erfolgreiche TREC-Systeme

Pfeil als Kennzeichnung einer Unterueberschrift 3.5: Korpusbasierte Verfahren

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3Erweiterte Retrieval-Ansätze
3.1Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren
3.1.1Das MMM-Modell
3.1.2Das Paice-Modell
3.1.3Das P-Norm-Modell
3.2Der probabilistische Retrieval-Ansatz
3.2.1Wahrscheinlichkeiten in endlichen Mengen
Def. 23 Endlicher Wahrscheinlichkeitsraum
3.2.1.1Beispiel: Würfel
Def. 24 Bedingte Wahrscheinlichkeit, Unabhängigkeit
3.2.2Abschätzung des Retrieval-Status-Werts
Abb. 73 Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts zu einer Anfrage q = (t1,...,t6)
Abb. 74 Neue Dokumente und ihr Retrieval-Status-Wert
3.2.3Die Robertson-Sparck-Jones-Formel
3.3Logikbasierte Modelle des Information Retrieval
Abb. 75 Modellieren von Wissen durch Regeln
3.3.1Imaging
Abb. 76 Imaging
Abb. 77 Probleme des Imaging
3.3.2Bayessche Inferenznetze
Abb. 78 Inferenznetz für das Information Retrieval nach Turtle und Croft
Abb. 79 Inferenznetz, wie es zur Implementierung von INQUERY verwendet wurde (nach Turtle und Croft 1991)
3.3.3Abduktive Anfrageoptimierung
3.4Erfolgreiche TREC-Systeme
3.4.1Die TREC-3-Ergebnisse von SMART
Abb. 80 Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81 Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren
3.4.2Die TREC-4-Ergebnisse von SMART
Abb. 82 Normierung des Einflusses der Dokumentlänge
Abb. 83 Vergleich der SMART-Ergebnisse in TREC-4 mit und ohne Expansion und neuer Normierung
Abb. 84 Ergebnisse der SMART-Verfahren in TREC-4
Abb. 85 Vergleich der SMART-Ergebnisse mit anderen TREC-4-Verfahren
3.4.3Ein Spreading-Activation-Modell
Abb. 86 Das Netz des PIRCS-Systems
Abb. 87 Ergebnisse der PIRCS-Verfahren in TREC-4
Abb. 88 Vergleich der PIRCS-Verfahren mit anderen TREC-4-Systemen
3.4.4INQUERY in TREC-4
Abb. 89 Ergebnisse mit INQUERY in TREC4
3.4.5Das Okapi-System
Abb. 90 Ergebnisse mit Okapi in TREC-4
3.4.6Spezialaufgaben (TREC Tracks)
3.5Korpusbasierte Verfahren
Abb. 91 Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen
3.5.1Der assoziative Ansatz im IR
3.5.2Kookurrenzverfahren
3.5.2.1Ein Machine-Learning-Ansatz
3.5.2.2Term-Term-Matrizen
3.5.2.3Anwendung im IR
3.5.2.4Häufigkeit der Terme
3.5.2.5Expansion von Termen oder Anfragen
3.5.2.6Größe der Dokumentensammlung
3.5.2.7Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 92 Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche
3.5.2.8Komplexere Kookurrenzverfahren
3.5.3Anwendung im mehrsprachigen Retrieval
Abb. 93 Ergebnisse der Studie zum mehrsprachigen Retrieval
3.5.4Deskriptoren bestimmen
Abb. 94 Datensatz aus der Idis Datenbank
Abb. 95 Mittlere Precision-Werte für unterschiedliche Parameterwerte
Abb. 96 Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge
3.5.5Latent Semantic Indexing
3.5.6Gewichtungsmethoden Lernen
Abb. 97 Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley
3.5.7Social oder Collaborative Filtering
Information Retrieval, Vektorraummodell, TREC, Ähnlichkeitsmaß, Vektorraummodell, Vektorraummodell, Wertebereich, Zugehörigkeitsfunktion, elementare Anfrage, Durchschnitt, Dokumentvektor, MMM-Modell, Dokumentvektor, Durchschnitt, Testkollektion, Ähnlichkeitsfunktion, Dokumentvektor, Skalarprodukt, P-Norm-Modell, Dokumentvektor, Fakten-Retrieval, Unabhängigkeit, Wahrscheinlichkeitsraum, endlicher Wahrscheinlichkeitsraum, Wahrscheinlichkeitsfunktion, Grundraum, Ereignis, elementares Ereignis, Elementarereignis, komplementäres Ereignis, Zufallsvariable, Unabhängigkeit, bedingte Wahrscheinlichkeit, Bedingung, unabhängig, bayessche Formel, unabhängig, Relevanz, charakteristische Funktion, Quote, odds, Relevanzurteil, unabhängig, linked dependency assumption, Rangfolge, Retrieval-Status-Wert, retrieval status value, Relevance Feedback, Trainingsmenge, Relevanz, Dokumenthäufigkeit, IDF, Skalarprodukt, Dokumentvektor, Query-Vektor, Relevanz, Thesaurus, Synonymmenge, Information Retrieval, Regel, Konsistenz, probabilistische Inferenz, mögliche Welt, possible world, Aussage, Rangfolge, Ähnlichkeitsfunktion, Vektorraummodell, Indikatorfunktion, charakteristische Funktion, Imaging, IDF, Ähnlichkeitsmaß, bayessches Inferenznetz, Aussage, Dokumentennetz, document network, Dokumentenschicht, Textrepräsentationsschicht, Konzeptrepräsentationsschicht, Anfragenetz, query network, Relevanz, Rangfolge, Indexterm, IDF, Unabhängigkeit, invertierte Liste, Query-Vektor, Ähnlichkeitsfunktion, TREC, Passagen-Retrieval, Pseudo-Relevance-Feedback, Robertson-Sparck-Jones-Formel, Routing, Pseudo-Relevance-Feedback, Dokumentvektor, Rangfolge, Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Relevanz, Termhäufigkeit, Expansion, Ähnlichkeitsfunktion, Individual-Term-Locality-Maß, ITL-Maß, Ähnlichkeitssuche, Attribut, Expansion, Expansion, assoziativer Thesaurus, Phrasen, Vektorraummodell, Ad-hoc-Aufgabe, Narrative, Gewichtungsmethode, Confusion, Merging, Filtering, Routing, Rangfolge, Interactive, Multilingual, NLP, Cross Language, Very Large Corpus, Web Track, Spoken Document Retrieval, Question Answering, korpusbasiertes Verfahren, unabhängig, Unabhängigkeit, Stammformenreduktion, Synonymmenge, Thesaurus, unabhängig, Information Retrieval, Kookurrenzdaten, assoziative Regel, Attribut, Dokumenthäufigkeit, Assoziationstheorie, Grundformenreduktion, computerlinguistischer Ansatz, Oberflächenform, Synonymmenge, Granularität, Ähnlichkeitsmaß, Kookurrenzverfahren, Kookurrenzmodelle, Term-Dokument-Matrix, Wissensgewinnung, Nachrichtenagentur, Routing, Kategorie, Kategorisierung, Skalarprodukt, Term-Term-Matrix, themenspezifischer assoziativer Thesaurus, Rangfolge, Anfrageerweiterung, Query Expansion, Gewichtungsmethode, IDF, Expansion, Cosinus-Maß, Tanimoto-Maß, Unabhängigkeit, Ähnlichkeitsmaß, Expansion, Testkollektion, Term-Term-Matrix, Attribut, assoziativer Thesaurus, mehrsprachige Suche, mehrsprachiges Retrieval, assoziativer Thesaurus, cross language retrieval, Schweizerische Depeschen-Agentur, Grundformenreduktion, Vektorraummodell, kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus, Latent Semantic Indexing, Term-Dokument-Matrix, Gewichtungsmethode, Dokumentvektor, Abstract, Vektorraummodell, Darmstädter Indexierungsansatz, Darmstadt Indexing Approach, DIA, Auftrittsform, relevance description, Attribut, SGML, XML, Attribut, Dokumentvektor, Ähnlichkeitsmaß, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut Abstract, Ad-hoc-Aufgabe, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitssuche, Anfrageerweiterung, Anfragenetz, Assoziationstheorie, assoziative Regel, assoziativer Thesaurus, assoziativer Thesaurus, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Attribut, Auftrittsform, Aussage, Aussage, bayessche Formel, bayessches Inferenznetz, bedingte Wahrscheinlichkeit, Bedingung, charakteristische Funktion, charakteristische Funktion, computerlinguistischer Ansatz, Confusion, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Cross Language, cross language retrieval, Darmstadt Indexing Approach, Darmstädter Indexierungsansatz, DIA, document network, Dokumentennetz, Dokumentenschicht, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Durchschnitt, Durchschnitt, elementare Anfrage, Elementarereignis, elementares Ereignis, endlicher Wahrscheinlichkeitsraum, Ereignis, Expansion, Expansion, Expansion, Expansion, Expansion, Fakten-Retrieval, Filtering, Gewichtungsmethode, Gewichtungsmethode, Gewichtungsmethode, Granularität, GroupLense, Grundformenreduktion, Grundformenreduktion, Grundraum, IDF, IDF, IDF, IDF, IDF, Imaging, Indexterm, Indikatorfunktion, Individual-Term-Locality-Maß, Information Retrieval, Information Retrieval, Information Retrieval, Interactive, invertierte Liste, ITL-Maß, Kategorie, Kategorisierung, Kategorisierung, komplementäres Ereignis, Konsistenz, kontrolliertes Vokabular, Konzeptrepräsentationsschicht, Kookurrenzdaten, Kookurrenzmodelle, Kookurrenzverfahren, korpusbasiertes Verfahren, Latent Semantic Indexing, linked dependency assumption, mehrsprachige Suche, mehrsprachiges Retrieval, Merging, MMM-Modell, mögliche Welt, Multilingual, Nachrichtenagentur, Narrative, NLP, Oberflächenform, odds, P-Norm-Modell, Passagen-Retrieval, Phrasen, possible world, probabilistische Inferenz, Pseudo-Relevance-Feedback, Pseudo-Relevance-Feedback, Query Expansion, query network, Query-Vektor, Query-Vektor, Question Answering, Quote, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Regel, Relevance Feedback, relevance description, Relevanz, Relevanz, Relevanz, Relevanz, Relevanz, Relevanzurteil, retrieval status value, Retrieval-Status-Wert, Robertson-Sparck-Jones-Formel, Routing, Routing, Routing, Schweizerische Depeschen-Agentur, SGML, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Spoken Document Retrieval, Stammformenreduktion, Stammformenreduktion, Synonymmenge, Synonymmenge, Synonymmenge, Tanimoto-Maß, Term-Dokument-Matrix, Term-Dokument-Matrix, Term-Term-Matrix, Term-Term-Matrix, Term-Term-Matrix, Termhäufigkeit, Testkollektion, Testkollektion, Textrepräsentationsschicht, themenspezifischer assoziativer Thesaurus, Thesaurus, Thesaurus, Thesaurus, Trainingsmenge, TREC, TREC, unabhängig, unabhängig, unabhängig, unabhängig, unabhängig, Unabhängigkeit, Unabhängigkeit, Unabhängigkeit, Unabhängigkeit, Unabhängigkeit, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Very Large Corpus, vorhersagendes Attribut, vorherzusagendes Attribut, Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsraum, Web Track, Wertebereich, Wissensgewinnung, XML, Zufallsvariable, Zugehörigkeitsfunktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.