Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval
Stichwörter dieser Seite	Information Retrieval, Vektorraummodell, TREC, Ähnlichkeitsmaß
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

3: Erweiterte Retrieval-Ansätze

In den ersten beiden Teilen wurden klassische Methoden und Verfahren des Information Retrieval und der Wissensgewinnung dargestellt und teilweise mit benachbarten Fachgebieten in Verbindung gesetzt.

In diesem Teil werden weitere theoretische Modellansätze und experimentelle Systeme vorgestellt. Dabei zeigt sich, dass die theoretischen Modelle schnell so komplex werden, dass sie sich auch mit modernen Rechnern und großen Testkollektionen nicht implementieren lassen, ohne starke Vereinfachungen anzunehmen. Diese Vereinfachungen führen häufig dazu, dass die abgeleiteten Systeme auch auf das Vektorraummodell zurückgeführt werden können und so dem Anspruch, ein weitergehendes Modell zu implementieren, nur bedingt gerecht werden.

Andererseits haben die TREC-Experimente gezeigt, dass sich durch geschickt angewendete Heuristiken die Ergebnisse stark verbessern lassen. Dabei haben sich einige Vorgehensweisen besonders bewährt. Diese erfolgreichen Methoden und Ähnlichkeitsmaße wurden daraufhin von vielen der an TREC teilnehmenden Systeme übernommen.

Wo es sinnvoll erscheint, wird auch in diesem Teil wieder kurz in Theorien aus dem Umfeld des Information Retrieval eingeführt, um Beziehungen zu den Nachbargebieten herzustellen.

3.1: Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren

3.2: Der probabilistische Retrieval-Ansatz

3.3: Logikbasierte Modelle des Information Retrieval

3.4: Erfolgreiche TREC-Systeme

3.5: Korpusbasierte Verfahren

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

3	Erweiterte Retrieval-Ansätze
3.1	Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren
3.1.1	Das MMM-Modell
3.1.2	Das Paice-Modell
3.1.3	Das P-Norm-Modell
3.2	Der probabilistische Retrieval-Ansatz
3.2.1	Wahrscheinlichkeiten in endlichen Mengen
Def. 23	Endlicher Wahrscheinlichkeitsraum
3.2.1.1	Beispiel: Würfel
Def. 24	Bedingte Wahrscheinlichkeit, Unabhängigkeit
3.2.2	Abschätzung des Retrieval-Status-Werts
Abb. 73	Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts zu einer Anfrage q = (t1,...,t6)
Abb. 74	Neue Dokumente und ihr Retrieval-Status-Wert
3.2.3	Die Robertson-Sparck-Jones-Formel
3.3	Logikbasierte Modelle des Information Retrieval
Abb. 75	Modellieren von Wissen durch Regeln
3.3.1	Imaging
Abb. 76	Imaging
Abb. 77	Probleme des Imaging
3.3.2	Bayessche Inferenznetze
Abb. 78	Inferenznetz für das Information Retrieval nach Turtle und Croft
Abb. 79	Inferenznetz, wie es zur Implementierung von INQUERY verwendet wurde (nach Turtle und Croft 1991)
3.3.3	Abduktive Anfrageoptimierung
3.4	Erfolgreiche TREC-Systeme
3.4.1	Die TREC-3-Ergebnisse von SMART
Abb. 80	Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81	Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren
3.4.2	Die TREC-4-Ergebnisse von SMART
Abb. 82	Normierung des Einflusses der Dokumentlänge
Abb. 83	Vergleich der SMART-Ergebnisse in TREC-4 mit und ohne Expansion und neuer Normierung
Abb. 84	Ergebnisse der SMART-Verfahren in TREC-4
Abb. 85	Vergleich der SMART-Ergebnisse mit anderen TREC-4-Verfahren
3.4.3	Ein Spreading-Activation-Modell
Abb. 86	Das Netz des PIRCS-Systems
Abb. 87	Ergebnisse der PIRCS-Verfahren in TREC-4
Abb. 88	Vergleich der PIRCS-Verfahren mit anderen TREC-4-Systemen
3.4.4	INQUERY in TREC-4
Abb. 89	Ergebnisse mit INQUERY in TREC4
3.4.5	Das Okapi-System
Abb. 90	Ergebnisse mit Okapi in TREC-4
3.4.6	Spezialaufgaben (TREC Tracks)
3.5	Korpusbasierte Verfahren
Abb. 91	Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen
3.5.1	Der assoziative Ansatz im IR
3.5.2	Kookurrenzverfahren
3.5.2.1	Ein Machine-Learning-Ansatz
3.5.2.2	Term-Term-Matrizen
3.5.2.3	Anwendung im IR
3.5.2.4	Häufigkeit der Terme
3.5.2.5	Expansion von Termen oder Anfragen
3.5.2.6	Größe der Dokumentensammlung
3.5.2.7	Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 92	Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche
3.5.2.8	Komplexere Kookurrenzverfahren
3.5.3	Anwendung im mehrsprachigen Retrieval
Abb. 93	Ergebnisse der Studie zum mehrsprachigen Retrieval
3.5.4	Deskriptoren bestimmen
Abb. 94	Datensatz aus der Idis Datenbank
Abb. 95	Mittlere Precision-Werte für unterschiedliche Parameterwerte
Abb. 96	Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge
3.5.5	Latent Semantic Indexing
3.5.6	Gewichtungsmethoden Lernen
Abb. 97	Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley
3.5.7	Social oder Collaborative Filtering

Information Retrieval, Vektorraummodell, TREC, Ähnlichkeitsmaß, Vektorraummodell, Vektorraummodell, Wertebereich, Zugehörigkeitsfunktion, elementare Anfrage, Durchschnitt, Dokumentvektor, MMM-Modell, Dokumentvektor, Durchschnitt, Testkollektion, Ähnlichkeitsfunktion, Dokumentvektor, Skalarprodukt, P-Norm-Modell, Dokumentvektor, Fakten-Retrieval, Unabhängigkeit, Wahrscheinlichkeitsraum, endlicher Wahrscheinlichkeitsraum, Wahrscheinlichkeitsfunktion, Grundraum, Ereignis, elementares Ereignis, Elementarereignis, komplementäres Ereignis, Zufallsvariable, Unabhängigkeit, bedingte Wahrscheinlichkeit, Bedingung, unabhängig, bayessche Formel, unabhängig, Relevanz, charakteristische Funktion, Quote, odds, Relevanzurteil, unabhängig, linked dependency assumption, Rangfolge, Retrieval-Status-Wert, retrieval status value, Relevance Feedback, Trainingsmenge, Relevanz, Dokumenthäufigkeit, IDF, Skalarprodukt, Dokumentvektor, Query-Vektor, Relevanz, Thesaurus, Synonymmenge, Information Retrieval, Regel, Konsistenz, probabilistische Inferenz, mögliche Welt, possible world, Aussage, Rangfolge, Ähnlichkeitsfunktion, Vektorraummodell, Indikatorfunktion, charakteristische Funktion, Imaging, IDF, Ähnlichkeitsmaß, bayessches Inferenznetz, Aussage, Dokumentennetz, document network, Dokumentenschicht, Textrepräsentationsschicht, Konzeptrepräsentationsschicht, Anfragenetz, query network, Relevanz, Rangfolge, Indexterm, IDF, Unabhängigkeit, invertierte Liste, Query-Vektor, Ähnlichkeitsfunktion, TREC, Passagen-Retrieval, Pseudo-Relevance-Feedback, Robertson-Sparck-Jones-Formel, Routing, Pseudo-Relevance-Feedback, Dokumentvektor, Rangfolge, Stammformenreduktion, IDF, Ähnlichkeitsfunktion, Skalarprodukt, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Relevanz, Termhäufigkeit, Expansion, Ähnlichkeitsfunktion, Individual-Term-Locality-Maß, ITL-Maß, Ähnlichkeitssuche, Attribut, Expansion, Expansion, assoziativer Thesaurus, Phrasen, Vektorraummodell, Ad-hoc-Aufgabe, Narrative, Gewichtungsmethode, Confusion, Merging, Filtering, Routing, Rangfolge, Interactive, Multilingual, NLP, Cross Language, Very Large Corpus, Web Track, Spoken Document Retrieval, Question Answering, korpusbasiertes Verfahren, unabhängig, Unabhängigkeit, Stammformenreduktion, Synonymmenge, Thesaurus, unabhängig, Information Retrieval, Kookurrenzdaten, assoziative Regel, Attribut, Dokumenthäufigkeit, Assoziationstheorie, Grundformenreduktion, computerlinguistischer Ansatz, Oberflächenform, Synonymmenge, Granularität, Ähnlichkeitsmaß, Kookurrenzverfahren, Kookurrenzmodelle, Term-Dokument-Matrix, Wissensgewinnung, Nachrichtenagentur, Routing, Kategorie, Kategorisierung, Skalarprodukt, Term-Term-Matrix, themenspezifischer assoziativer Thesaurus, Rangfolge, Anfrageerweiterung, Query Expansion, Gewichtungsmethode, IDF, Expansion, Cosinus-Maß, Tanimoto-Maß, Unabhängigkeit, Ähnlichkeitsmaß, Expansion, Testkollektion, Term-Term-Matrix, Attribut, assoziativer Thesaurus, mehrsprachige Suche, mehrsprachiges Retrieval, assoziativer Thesaurus, cross language retrieval, Schweizerische Depeschen-Agentur, Grundformenreduktion, Vektorraummodell, kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus, Latent Semantic Indexing, Term-Dokument-Matrix, Gewichtungsmethode, Dokumentvektor, Abstract, Vektorraummodell, Darmstädter Indexierungsansatz, Darmstadt Indexing Approach, DIA, Auftrittsform, relevance description, Attribut, SGML, XML, Attribut, Dokumentvektor, Ähnlichkeitsmaß, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut

Abstract, Ad-hoc-Aufgabe, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitssuche, Anfrageerweiterung, Anfragenetz, Assoziationstheorie, assoziative Regel, assoziativer Thesaurus, assoziativer Thesaurus, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Attribut, Auftrittsform, Aussage, Aussage, bayessche Formel, bayessches Inferenznetz, bedingte Wahrscheinlichkeit, Bedingung, charakteristische Funktion, charakteristische Funktion, computerlinguistischer Ansatz, Confusion, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Cosinus-Maß, Cross Language, cross language retrieval, Darmstadt Indexing Approach, Darmstädter Indexierungsansatz, DIA, document network, Dokumentennetz, Dokumentenschicht, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Durchschnitt, Durchschnitt, elementare Anfrage, Elementarereignis, elementares Ereignis, endlicher Wahrscheinlichkeitsraum, Ereignis, Expansion, Expansion, Expansion, Expansion, Expansion, Fakten-Retrieval, Filtering, Gewichtungsmethode, Gewichtungsmethode, Gewichtungsmethode, Granularität, GroupLense, Grundformenreduktion, Grundformenreduktion, Grundraum, IDF, IDF, IDF, IDF, IDF, Imaging, Indexterm, Indikatorfunktion, Individual-Term-Locality-Maß, Information Retrieval, Information Retrieval, Information Retrieval, Interactive, invertierte Liste, ITL-Maß, Kategorie, Kategorisierung, Kategorisierung, komplementäres Ereignis, Konsistenz, kontrolliertes Vokabular, Konzeptrepräsentationsschicht, Kookurrenzdaten, Kookurrenzmodelle, Kookurrenzverfahren, korpusbasiertes Verfahren, Latent Semantic Indexing, linked dependency assumption, mehrsprachige Suche, mehrsprachiges Retrieval, Merging, MMM-Modell, mögliche Welt, Multilingual, Nachrichtenagentur, Narrative, NLP, Oberflächenform, odds, P-Norm-Modell, Passagen-Retrieval, Phrasen, possible world, probabilistische Inferenz, Pseudo-Relevance-Feedback, Pseudo-Relevance-Feedback, Query Expansion, query network, Query-Vektor, Query-Vektor, Question Answering, Quote, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Regel, Relevance Feedback, relevance description, Relevanz, Relevanz, Relevanz, Relevanz, Relevanz, Relevanzurteil, retrieval status value, Retrieval-Status-Wert, Robertson-Sparck-Jones-Formel, Routing, Routing, Routing, Schweizerische Depeschen-Agentur, SGML, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Spoken Document Retrieval, Stammformenreduktion, Stammformenreduktion, Synonymmenge, Synonymmenge, Synonymmenge, Tanimoto-Maß, Term-Dokument-Matrix, Term-Dokument-Matrix, Term-Term-Matrix, Term-Term-Matrix, Term-Term-Matrix, Termhäufigkeit, Testkollektion, Testkollektion, Textrepräsentationsschicht, themenspezifischer assoziativer Thesaurus, Thesaurus, Thesaurus, Thesaurus, Trainingsmenge, TREC, TREC, unabhängig, unabhängig, unabhängig, unabhängig, unabhängig, Unabhängigkeit, Unabhängigkeit, Unabhängigkeit, Unabhängigkeit, Unabhängigkeit, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Very Large Corpus, vorhersagendes Attribut, vorherzusagendes Attribut, Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsraum, Web Track, Wertebereich, Wissensgewinnung, XML, Zufallsvariable, Zugehörigkeitsfunktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.