Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden
Stichwörter dieser Seite Information Retrieval
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3: Klassische Information-Retrieval-Verfahren

Bisher wurden einige Informationssysteme exemplarisch vorgestellt und anschließend einige grundlegende Begriffe eingeführt. In diesem Teil sollen nun die klassischen Verfahren des Information Retrieval vorgestellt werden. Begonnen wird mit dem booleschen Retrieval, das ja bereits mehrmals erwähnt wurde.

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.1: Boolesches Retrieval

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.2: Zeichenketten, Wörter und Konzepte

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.3: Klassifikationen

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.4: Thesauren

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.5: Semantische Netze

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.6: Das Vektorraummodell

Pfeil als Kennzeichnung einer Unterueberschrift 1.3.7: Bewertung und Vergleich von IR-Systemen

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3Klassische Information-Retrieval-Verfahren
1.3.1Boolesches Retrieval
1.3.1.1Logik des booleschen Retrieval
Def. 1 Boolesches Retrieval
1.3.1.2Boolesches Retrieval für Textdokumente
1.3.1.3Implementierung mit invertierten Listen
1.3.1.4Erweiterungen
1.3.2Zeichenketten, Wörter und Konzepte
Abb. 13 Trunkierungen, die nicht nur Tiere ausschließen
1.3.2.1Reduktion von Wörtern auf ihre Grundformen
Abb. 14 Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System
1.3.2.2Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15 Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16 Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17 Anwendungsbeispiel des Kuhlen-Algorithmus
1.3.2.3Lexikonbasierte Morphologie-Analyse
Abb. 18 Flexionsanalyse nach Lezius
1.3.2.4Auflösen von Mehrdeutigkeiten
1.3.3Klassifikationen
Def. 2 Klassifikation
Abb. 19 Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System
1.3.3.1Internationale Dezimalklassifikation
Abb. 20 Die 10 Hauptabteilungen der internationalen Dezimalklassifikation
Abb. 21 Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation
Abb. 22 Ein Pfad durch die internationale Dezimalklassifikation
Abb. 23 Ein Pfad durch die internationale Dezimalklassifikation
1.3.3.2Erweiterte Klassifikationssysteme
Abb. 24 Die Grundkategorien der Toman Facettenklassifikation
Abb. 25 Die Facettenwerte der ersten Grundkategorie der Toman-Facettenklassifikation
1.3.4Thesauren
Abb. 26 Beispiele von Thesauruseinträgen
Abb. 27 Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System
1.3.5Semantische Netze
Abb. 28 Dereferenzierung eines Pronomens
1.3.6Das Vektorraummodell
1.3.6.1Das Modell
Def. 3 Vektorraummodell
Abb. 29 Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4 Vektorraummodell mit Attributen
1.3.6.2Vektorraummodell und boolesches Retrieval
Def. 5 Skalarprodukt
1.3.6.3Gewichtungsmethoden
1.3.6.3.1Globale Gewichtungseinflüsse
Satz 1 Zipfsches Gesetz
Abb. 30 Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31 Schematische Darstellung des zipfschen Gesetzes
Abb. 32 Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2Lokale Gewichtungseinflüsse
1.3.6.4Relevance Feedback
1.3.6.5Ähnlichkeitsfunktionen
1.3.6.5.1Das Skalarprodukt
Abb. 33 Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2Das Cosinus-Maß
Abb. 34 Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3Das Pseudo-Cosinus-Maß
Abb. 35 Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4Das Dice-Maß
Abb. 36 Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5Das Overlap-Maß
Abb. 37 Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6Das Jaccard-Maß
Abb. 38 Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6Das Retrieval-System SMART
Alg. 1 Single-Pass-Cluster-Verfahren
1.3.7Bewertung und Vergleich von IR-Systemen
1.3.7.1Einflussfaktoren
1.3.7.2Relevanz
Def. 6 Relevanz
1.3.7.3Precision und Recall
Def. 7 Precision und Recall
Def. 8 Precision-Recall-Diagramm
Abb. 39 Beispiel einer Ergebnisliste und der daraus berechneten Folge von Precision-Recall-Paaren
Abb. 40 Precision-Recall-Diagramm
1.3.7.4Mittelwertbildungen
1.3.7.5Testkollektionen
Abb. 41 Testkollektionen
1.3.7.6Die TREC-Experimente
Abb. 42 Beispieldokument aus dem TREC-Korpus
Abb. 43 Topics aus den ersten TREC-Durchgängen
Abb. 44 Topics aus späteren TREC-Durchgängen
Abb. 45 Überprüfung der Relevanzbeurteilung bei TREC-2
Abb. 46 Größe der Grundmenge der auf Relevanz beurteilten Dokumente
Abb. 47 Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen
Information Retrieval, Fakten-Retrieval, Expertenmodus, Attribut, Attribut-Wert-Paar, elementare boolesche Anfrage, elementare Anfrage, boolesches Retrieval, Ergebnismenge, elementare Anfrage, Durchschnitt, Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste, invertierte Liste, kontrolliertes Vokabular, Freitextsuche, Indexterm, indexiert, indiziert, Stoppwortliste, Term, word within location list, Postings File, trunkiert, Wildcard, regulärer Ausdruck, kontrolliertes Vokabular, Vergleichbarkeit von Inhalten, computerlinguistischer Ansatz, Grundformenreduktion, Stammformenreduktion, Lemmatisierung, Stemming, invertierte Liste, lexikografische Grundform, formale Grundform, Stammform nach linguistischen Prinzipien, Verfugung, Morphologie-Analyse-System, Hochfrequenzwörterbuch, Flexionsanalyse, Kompositionsanalyse, Polysemie, Ambiguität, Synonymie, Klassifikation, Klassifikation, Attribut, Klassen, Klassierung, streng hierarchisches Klassifikationssystem, Indexterm, schwache Hierarchien, Polyhierarchien, Doppelstellen, Internationale Dezimalklassifikation, Dewey Decimal Classification, DDC, präkoordiniert, World Wide Web, Anhängezahlen, Postkoordination, Facettenklassifikation, Faktendatenbank, Thesaurus, kontrolliertes Vokabular, Relation, allgemeiner Thesaurus, Roget's Thesaurus, Thesauren in IR-Systemen, kontrolliertes Vokabular, Deskriptor, Synonym, Synonymmenge, Expansion, Rotated Index, Bibliografie, Bezugsrahmen, terminologische Kontrolle, Synonymkontrolle, Polysemkontrolle, Scope Note, Zerlegungskontrolle, begriffliche Kontrolle, assoziativer Thesaurus, Relation, semantisches Netz, Frame, Synonymmenge, Ontologie, Konsistenz, Teilmengenbeziehung, Element-Beziehung, Teil-Ganzes-Beziehung, Klassifikation, Spezialisierung, Indexterm, Ähnlichkeitsmaß, Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste, boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt, Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency, Relevance Feedback, Dokumentvektor, Relevanzurteil, Relevanz, Ähnlichkeitssuche, Query by example, Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß, Vektorraummodell, TF-IDF, Thesaurus, Cluster-Verfahren, Single-Pass-Cluster-Verfahren, Dokumentvektor, Information Retrieval, Einflussfaktoren, input policies, Dokumentformat, physical input form, Indexierungsmethode, indexing language, kontrolliertes Vokabular, Indexierungsvorgang, indexing operation, search operation, Effizienz, Effektivität, Relevanz, Relevanz, Precision, Präzision, Genauigkeit, Recall, Vollständigkeit, Vektorraummodell, Ähnlichkeitsschranke, Rangfolge, Schwelle, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Makrobewertung, nutzungsorientiert, user-oriented, Mikrobewertung, systemorientiert, system oriented, Durchschnitt, mittlere Precision, Break-Even Point, Testkollektion, Frageerweiterung, repräsentative Stichprobe, Relevanzurteil, Document-Source-Methode, Testkollektion, document test collection, TREC, Text REtrieval Conference, National Institute of Standards and Technology, NIST, Topic, Narrative, Ad-hoc-Anfrage, Routing, Relevanz, Pooling-Verfahren, Relevanzurteil, Relevanzurteil Abdeckung, Abstract, Ad-hoc-Anfrage, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsschranke, Ähnlichkeitssuche, allgemeiner Thesaurus, Ambiguität, Anfragevektor, Anfragevektor, Anhängezahlen, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut-Wert-Paar, Attribut-Wert-Paar, begriffliche Kontrolle, Between-Object, Bezugsrahmen, Bibliografie, boolesches Retrieval, boolesches Retrieval, Break-Even Point, Cluster-Verfahren, computerlinguistischer Ansatz, Cosinus-Maß, DDC, Deskriptor, Dewey Decimal Classification, Dice-Maß, Diskriminationskraft, document frequency, document test collection, Document-Source-Methode, Dokumentformat, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Doppelstellen, Durchschnitt, Durchschnitt, Effektivität, Effizienz, Einflussfaktoren, Element-Beziehung, elementare Anfrage, elementare Anfrage, elementare Anfrage, elementare boolesche Anfrage, Ergebnismenge, Expansion, Expertenmodus, Facettenklassifikation, Fakten-Retrieval, Faktendatenbank, Flexionsanalyse, formale Grundform, Frageerweiterung, Frame, Freitextsuche, Genauigkeit, Gewicht, Gewichtungsmethode, Gewichtungsmethode, Grundformenreduktion, Hochfrequenzwörterbuch, IDF, IDF, indexiert, Indexierungsmethode, Indexierungsvorgang, indexing language, indexing operation, Indexterm, Indexterm, Indexterm, indiziert, Information Retrieval, Information Retrieval, input policies, Internationale Dezimalklassifikation, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, Jaccard-Maß, Klassen, Klassierung, Klassifikation, Klassifikation, Klassifikation, Kompositionsanalyse, Konsistenz, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, Lemmatisierung, lexikografische Grundform, Makrobewertung, Mikrobewertung, mittlere Precision, Morphologie-Analyse-System, Narrative, National Institute of Standards and Technology, NIST, nutzungsorientiert, Ontologie, Overlap-Maß, physical input form, Polyhierarchien, Polysemie, Polysemkontrolle, Pooling-Verfahren, Postings File, Postkoordination, Potenzmenge, präkoordiniert, Präzision, Precision, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Pseudo-Cosinus-Maß, Query, Query by example, Query-Vektor, Query-Vektor, Rangfolge, Rangfolge, Rangfolge, Recall, regulärer Ausdruck, Relation, Relation, Relevance Feedback, Relevanz, Relevanz, Relevanz, Relevanz, Relevanzurteil, Relevanzurteil, Relevanzurteil, Relevanzurteil, repräsentative Stichprobe, Roget's Thesaurus, Rotated Index, Routing, schwache Hierarchien, Schwelle, Schwelle, Schwellwertfunktion, Scope Note, search operation, semantisches Netz, SGML, Single-Pass-Cluster-Verfahren, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Spezialisierung, Stammform nach linguistischen Prinzipien, Stammformenreduktion, Stemming, Stoppwortliste, streng hierarchisches Klassifikationssystem, Synonym, Synonymie, Synonymkontrolle, Synonymmenge, Synonymmenge, system oriented, systemorientiert, Teil-Ganzes-Beziehung, Teilmengenbeziehung, Term, Term, term frequency, term frequency-inverted document frequency, Termhäufigkeit, Termhäufigkeit, terminologische Kontrolle, Testkollektion, Testkollektion, Text REtrieval Conference, Textdokumente, TF, TF, TF-IDF, TF-IDF, Thesauren in IR-Systemen, Thesaurus, Thesaurus, Thesaurus, Topic, TREC, trunkiert, user-oriented, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell mit Attributen, Verfugung, Vergleichbarkeit von Inhalten, Vollständigkeit, Wildcard, Within-Object, word within location list, World Wide Web, Zerlegungskontrolle, zipfsches Gesetzt

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.