Klassische Information-Retrieval-Verfahren [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden
Stichwörter dieser Seite	Information Retrieval
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3: Klassische Information-Retrieval-Verfahren

Bisher wurden einige Informationssysteme exemplarisch vorgestellt und anschließend einige grundlegende Begriffe eingeführt. In diesem Teil sollen nun die klassischen Verfahren des Information Retrieval vorgestellt werden. Begonnen wird mit dem booleschen Retrieval, das ja bereits mehrmals erwähnt wurde.

1.3.1: Boolesches Retrieval

1.3.2: Zeichenketten, Wörter und Konzepte

1.3.3: Klassifikationen

1.3.4: Thesauren

1.3.5: Semantische Netze

1.3.6: Das Vektorraummodell

1.3.7: Bewertung und Vergleich von IR-Systemen

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3	Klassische Information-Retrieval-Verfahren
1.3.1	Boolesches Retrieval
1.3.1.1	Logik des booleschen Retrieval
Def. 1	Boolesches Retrieval
1.3.1.2	Boolesches Retrieval für Textdokumente
1.3.1.3	Implementierung mit invertierten Listen
1.3.1.4	Erweiterungen
1.3.2	Zeichenketten, Wörter und Konzepte
Abb. 13	Trunkierungen, die nicht nur Tiere ausschließen
1.3.2.1	Reduktion von Wörtern auf ihre Grundformen
Abb. 14	Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System
1.3.2.2	Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15	Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16	Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17	Anwendungsbeispiel des Kuhlen-Algorithmus
1.3.2.3	Lexikonbasierte Morphologie-Analyse
Abb. 18	Flexionsanalyse nach Lezius
1.3.2.4	Auflösen von Mehrdeutigkeiten
1.3.3	Klassifikationen
Def. 2	Klassifikation
Abb. 19	Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System
1.3.3.1	Internationale Dezimalklassifikation
Abb. 20	Die 10 Hauptabteilungen der internationalen Dezimalklassifikation
Abb. 21	Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation
Abb. 22	Ein Pfad durch die internationale Dezimalklassifikation
Abb. 23	Ein Pfad durch die internationale Dezimalklassifikation
1.3.3.2	Erweiterte Klassifikationssysteme
Abb. 24	Die Grundkategorien der Toman Facettenklassifikation
Abb. 25	Die Facettenwerte der ersten Grundkategorie der Toman-Facettenklassifikation
1.3.4	Thesauren
Abb. 26	Beispiele von Thesauruseinträgen
Abb. 27	Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System
1.3.5	Semantische Netze
Abb. 28	Dereferenzierung eines Pronomens
1.3.6	Das Vektorraummodell
1.3.6.1	Das Modell
Def. 3	Vektorraummodell
Abb. 29	Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4	Vektorraummodell mit Attributen
1.3.6.2	Vektorraummodell und boolesches Retrieval
Def. 5	Skalarprodukt
1.3.6.3	Gewichtungsmethoden
1.3.6.3.1	Globale Gewichtungseinflüsse
Satz 1	Zipfsches Gesetz
Abb. 30	Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31	Schematische Darstellung des zipfschen Gesetzes
Abb. 32	Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2	Lokale Gewichtungseinflüsse
1.3.6.4	Relevance Feedback
1.3.6.5	Ähnlichkeitsfunktionen
1.3.6.5.1	Das Skalarprodukt
Abb. 33	Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2	Das Cosinus-Maß
Abb. 34	Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3	Das Pseudo-Cosinus-Maß
Abb. 35	Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4	Das Dice-Maß
Abb. 36	Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5	Das Overlap-Maß
Abb. 37	Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6	Das Jaccard-Maß
Abb. 38	Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6	Das Retrieval-System SMART
Alg. 1	Single-Pass-Cluster-Verfahren
1.3.7	Bewertung und Vergleich von IR-Systemen
1.3.7.1	Einflussfaktoren
1.3.7.2	Relevanz
Def. 6	Relevanz
1.3.7.3	Precision und Recall
Def. 7	Precision und Recall
Def. 8	Precision-Recall-Diagramm
Abb. 39	Beispiel einer Ergebnisliste und der daraus berechneten Folge von Precision-Recall-Paaren
Abb. 40	Precision-Recall-Diagramm
1.3.7.4	Mittelwertbildungen
1.3.7.5	Testkollektionen
Abb. 41	Testkollektionen
1.3.7.6	Die TREC-Experimente
Abb. 42	Beispieldokument aus dem TREC-Korpus
Abb. 43	Topics aus den ersten TREC-Durchgängen
Abb. 44	Topics aus späteren TREC-Durchgängen
Abb. 45	Überprüfung der Relevanzbeurteilung bei TREC-2
Abb. 46	Größe der Grundmenge der auf Relevanz beurteilten Dokumente
Abb. 47	Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen

Information Retrieval, Fakten-Retrieval, Expertenmodus, Attribut, Attribut-Wert-Paar, elementare boolesche Anfrage, elementare Anfrage, boolesches Retrieval, Ergebnismenge, elementare Anfrage, Durchschnitt, Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste, invertierte Liste, kontrolliertes Vokabular, Freitextsuche, Indexterm, indexiert, indiziert, Stoppwortliste, Term, word within location list, Postings File, trunkiert, Wildcard, regulärer Ausdruck, kontrolliertes Vokabular, Vergleichbarkeit von Inhalten, computerlinguistischer Ansatz, Grundformenreduktion, Stammformenreduktion, Lemmatisierung, Stemming, invertierte Liste, lexikografische Grundform, formale Grundform, Stammform nach linguistischen Prinzipien, Verfugung, Morphologie-Analyse-System, Hochfrequenzwörterbuch, Flexionsanalyse, Kompositionsanalyse, Polysemie, Ambiguität, Synonymie, Klassifikation, Klassifikation, Attribut, Klassen, Klassierung, streng hierarchisches Klassifikationssystem, Indexterm, schwache Hierarchien, Polyhierarchien, Doppelstellen, Internationale Dezimalklassifikation, Dewey Decimal Classification, DDC, präkoordiniert, World Wide Web, Anhängezahlen, Postkoordination, Facettenklassifikation, Faktendatenbank, Thesaurus, kontrolliertes Vokabular, Relation, allgemeiner Thesaurus, Roget's Thesaurus, Thesauren in IR-Systemen, kontrolliertes Vokabular, Deskriptor, Synonym, Synonymmenge, Expansion, Rotated Index, Bibliografie, Bezugsrahmen, terminologische Kontrolle, Synonymkontrolle, Polysemkontrolle, Scope Note, Zerlegungskontrolle, begriffliche Kontrolle, assoziativer Thesaurus, Relation, semantisches Netz, Frame, Synonymmenge, Ontologie, Konsistenz, Teilmengenbeziehung, Element-Beziehung, Teil-Ganzes-Beziehung, Klassifikation, Spezialisierung, Indexterm, Ähnlichkeitsmaß, Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste, boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt, Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency, Relevance Feedback, Dokumentvektor, Relevanzurteil, Relevanz, Ähnlichkeitssuche, Query by example, Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß, Vektorraummodell, TF-IDF, Thesaurus, Cluster-Verfahren, Single-Pass-Cluster-Verfahren, Dokumentvektor, Information Retrieval, Einflussfaktoren, input policies, Dokumentformat, physical input form, Indexierungsmethode, indexing language, kontrolliertes Vokabular, Indexierungsvorgang, indexing operation, search operation, Effizienz, Effektivität, Relevanz, Relevanz, Precision, Präzision, Genauigkeit, Recall, Vollständigkeit, Vektorraummodell, Ähnlichkeitsschranke, Rangfolge, Schwelle, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Makrobewertung, nutzungsorientiert, user-oriented, Mikrobewertung, systemorientiert, system oriented, Durchschnitt, mittlere Precision, Break-Even Point, Testkollektion, Frageerweiterung, repräsentative Stichprobe, Relevanzurteil, Document-Source-Methode, Testkollektion, document test collection, TREC, Text REtrieval Conference, National Institute of Standards and Technology, NIST, Topic, Narrative, Ad-hoc-Anfrage, Routing, Relevanz, Pooling-Verfahren, Relevanzurteil, Relevanzurteil

Abdeckung, Abstract, Ad-hoc-Anfrage, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsschranke, Ähnlichkeitssuche, allgemeiner Thesaurus, Ambiguität, Anfragevektor, Anfragevektor, Anhängezahlen, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut-Wert-Paar, Attribut-Wert-Paar, begriffliche Kontrolle, Between-Object, Bezugsrahmen, Bibliografie, boolesches Retrieval, boolesches Retrieval, Break-Even Point, Cluster-Verfahren, computerlinguistischer Ansatz, Cosinus-Maß, DDC, Deskriptor, Dewey Decimal Classification, Dice-Maß, Diskriminationskraft, document frequency, document test collection, Document-Source-Methode, Dokumentformat, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Doppelstellen, Durchschnitt, Durchschnitt, Effektivität, Effizienz, Einflussfaktoren, Element-Beziehung, elementare Anfrage, elementare Anfrage, elementare Anfrage, elementare boolesche Anfrage, Ergebnismenge, Expansion, Expertenmodus, Facettenklassifikation, Fakten-Retrieval, Faktendatenbank, Flexionsanalyse, formale Grundform, Frageerweiterung, Frame, Freitextsuche, Genauigkeit, Gewicht, Gewichtungsmethode, Gewichtungsmethode, Grundformenreduktion, Hochfrequenzwörterbuch, IDF, IDF, indexiert, Indexierungsmethode, Indexierungsvorgang, indexing language, indexing operation, Indexterm, Indexterm, Indexterm, indiziert, Information Retrieval, Information Retrieval, input policies, Internationale Dezimalklassifikation, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, Jaccard-Maß, Klassen, Klassierung, Klassifikation, Klassifikation, Klassifikation, Kompositionsanalyse, Konsistenz, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, Lemmatisierung, lexikografische Grundform, Makrobewertung, Mikrobewertung, mittlere Precision, Morphologie-Analyse-System, Narrative, National Institute of Standards and Technology, NIST, nutzungsorientiert, Ontologie, Overlap-Maß, physical input form, Polyhierarchien, Polysemie, Polysemkontrolle, Pooling-Verfahren, Postings File, Postkoordination, Potenzmenge, präkoordiniert, Präzision, Precision, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Pseudo-Cosinus-Maß, Query, Query by example, Query-Vektor, Query-Vektor, Rangfolge, Rangfolge, Rangfolge, Recall, regulärer Ausdruck, Relation, Relation, Relevance Feedback, Relevanz, Relevanz, Relevanz, Relevanz, Relevanzurteil, Relevanzurteil, Relevanzurteil, Relevanzurteil, repräsentative Stichprobe, Roget's Thesaurus, Rotated Index, Routing, schwache Hierarchien, Schwelle, Schwelle, Schwellwertfunktion, Scope Note, search operation, semantisches Netz, SGML, Single-Pass-Cluster-Verfahren, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Spezialisierung, Stammform nach linguistischen Prinzipien, Stammformenreduktion, Stemming, Stoppwortliste, streng hierarchisches Klassifikationssystem, Synonym, Synonymie, Synonymkontrolle, Synonymmenge, Synonymmenge, system oriented, systemorientiert, Teil-Ganzes-Beziehung, Teilmengenbeziehung, Term, Term, term frequency, term frequency-inverted document frequency, Termhäufigkeit, Termhäufigkeit, terminologische Kontrolle, Testkollektion, Testkollektion, Text REtrieval Conference, Textdokumente, TF, TF, TF-IDF, TF-IDF, Thesauren in IR-Systemen, Thesaurus, Thesaurus, Thesaurus, Topic, TREC, trunkiert, user-oriented, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell mit Attributen, Verfugung, Vergleichbarkeit von Inhalten, Vollständigkeit, Wildcard, Within-Object, word within location list, World Wide Web, Zerlegungskontrolle, zipfsches Gesetzt

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.