Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1: Grundlagen und klassische IR-Methoden

Pfeil als Kennzeichnung einer Unterueberschrift 1.1: Einführende Beispiele

Pfeil als Kennzeichnung einer Unterueberschrift 1.2: Grundlagen

Pfeil als Kennzeichnung einer Unterueberschrift 1.3: Klassische Information-Retrieval-Verfahren

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1Grundlagen und klassische IR-Methoden
1.1Einführende Beispiele
1.1.1Einführung
1.1.2Literatursuche
1.1.3Recherche in einer Literaturdatenbank
Abb. 1 Dokument aus der Literaturdatenbank PSYNDEX
Abb. 2 Anzahl der in INSPEC gefundenen Dokumente im ersten Halbjahr 1995
1.1.4Faktendatenbanken und -retrieval
Abb. 3 Beispieldatenbank mit Wohnungsangeboten
1.1.5Hypertext-Informationssysteme
1.1.6Expertensysteme
1.1.7Management-Informationssysteme
1.1.8Data Mining
1.1.9Kategorisierung mit einem Data-Mining-System
Abb. 4 Scoring Table
Abb. 5 Eine kleine Trainingsmenge
Abb. 6 Entscheidungsbaum
1.1.10Assoziative Regeln und der Warenkorb
1.1.11Wissensgewinnung und Information Retrieval
Abb. 7 Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995
1.2Grundlagen
1.2.1Informationsübertragung
Abb. 8 Grundlegendes Schema der Informationsübertragung
1.2.1.1Datenübertragung
1.2.1.2Komplexere Übertragungsbeispiele
1.2.2Dialoge
Abb. 9 Einfaches Dialogschema
Abb. 10 Grundlegendes Schema eines Information-Retrieval-Systems
1.2.3Information Retrieval
1.2.3.1Daten, Wissen, Information
1.2.3.2Struktur eines Information-Retrieval-Systems
Abb. 11 Schematische Darstellung eines booleschen Information-Retrieval-Systems für Texte
1.2.3.3Information Retrieval: Definition und Abgrenzung
Abb. 12 Abgrenzung von Information Retrieval und Fakten Retrieval (Data Retrieval) nach Van Rijsbergen (1979)
1.3Klassische Information-Retrieval-Verfahren
1.3.1Boolesches Retrieval
1.3.1.1Logik des booleschen Retrieval
Def. 1 Boolesches Retrieval
1.3.1.2Boolesches Retrieval für Textdokumente
1.3.1.3Implementierung mit invertierten Listen
1.3.1.4Erweiterungen
1.3.2Zeichenketten, Wörter und Konzepte
Abb. 13 Trunkierungen, die nicht nur Tiere ausschließen
1.3.2.1Reduktion von Wörtern auf ihre Grundformen
Abb. 14 Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System
1.3.2.2Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15 Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16 Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17 Anwendungsbeispiel des Kuhlen-Algorithmus
1.3.2.3Lexikonbasierte Morphologie-Analyse
Abb. 18 Flexionsanalyse nach Lezius
1.3.2.4Auflösen von Mehrdeutigkeiten
1.3.3Klassifikationen
Def. 2 Klassifikation
Abb. 19 Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System
1.3.3.1Internationale Dezimalklassifikation
Abb. 20 Die 10 Hauptabteilungen der internationalen Dezimalklassifikation
Abb. 21 Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation
Abb. 22 Ein Pfad durch die internationale Dezimalklassifikation
Abb. 23 Ein Pfad durch die internationale Dezimalklassifikation
1.3.3.2Erweiterte Klassifikationssysteme
Abb. 24 Die Grundkategorien der Toman Facettenklassifikation
Abb. 25 Die Facettenwerte der ersten Grundkategorie der Toman-Facettenklassifikation
1.3.4Thesauren
Abb. 26 Beispiele von Thesauruseinträgen
Abb. 27 Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System
1.3.5Semantische Netze
Abb. 28 Dereferenzierung eines Pronomens
1.3.6Das Vektorraummodell
1.3.6.1Das Modell
Def. 3 Vektorraummodell
Abb. 29 Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4 Vektorraummodell mit Attributen
1.3.6.2Vektorraummodell und boolesches Retrieval
Def. 5 Skalarprodukt
1.3.6.3Gewichtungsmethoden
1.3.6.3.1Globale Gewichtungseinflüsse
Satz 1 Zipfsches Gesetz
Abb. 30 Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31 Schematische Darstellung des zipfschen Gesetzes
Abb. 32 Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2Lokale Gewichtungseinflüsse
1.3.6.4Relevance Feedback
1.3.6.5Ähnlichkeitsfunktionen
1.3.6.5.1Das Skalarprodukt
Abb. 33 Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2Das Cosinus-Maß
Abb. 34 Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3Das Pseudo-Cosinus-Maß
Abb. 35 Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4Das Dice-Maß
Abb. 36 Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5Das Overlap-Maß
Abb. 37 Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6Das Jaccard-Maß
Abb. 38 Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6Das Retrieval-System SMART
Alg. 1 Single-Pass-Cluster-Verfahren
1.3.7Bewertung und Vergleich von IR-Systemen
1.3.7.1Einflussfaktoren
1.3.7.2Relevanz
Def. 6 Relevanz
1.3.7.3Precision und Recall
Def. 7 Precision und Recall
Def. 8 Precision-Recall-Diagramm
Abb. 39 Beispiel einer Ergebnisliste und der daraus berechneten Folge von Precision-Recall-Paaren
Abb. 40 Precision-Recall-Diagramm
1.3.7.4Mittelwertbildungen
1.3.7.5Testkollektionen
Abb. 41 Testkollektionen
1.3.7.6Die TREC-Experimente
Abb. 42 Beispieldokument aus dem TREC-Korpus
Abb. 43 Topics aus den ersten TREC-Durchgängen
Abb. 44 Topics aus späteren TREC-Durchgängen
Abb. 45 Überprüfung der Relevanzbeurteilung bei TREC-2
Abb. 46 Größe der Grundmenge der auf Relevanz beurteilten Dokumente
Abb. 47 Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen
World Wide Web, Web, HTTP, Hypertext Transfer Protocol, Auszeichnungssprache, HTML, Hypertext Markup Language, Information Retrieval, IR, Dokument, Literatursuche, Literaturverweis, Bibliografie, Abstract-Sammlung, Konferenzbände, Papierbibliothek, Stichwortkatalog, Inhaltsklassifikation, Themengebiet, Literaturdatenbank, Übersichtsseiten im Web, Recherche in einer Literaturdatenbank, INSPEC, Kurzzusammenfassung, Abstract, Referat, Stichwort, PSYNDEX, ZPID, Literaturverweis, Referenz, Stichwort, white space, Wildcard, Faktendatenbank, Datenbankmanagementsystem, DBMS, Konsistenz, Hypertext-Informationssystem, World Wide Web, Startseite, Homepage, Link, Expertensysteme, Fahrplan-Auskunftssystem, Management-Informationssystem, Entscheidungsunterstützungssystem, decision support system, Data Warehouse, Intranet, OLAP, On-Line Analytical Processing, Visualisierungswerkzeug, Wissensgewinnung, Knowledge Discovery in Databases, Data Mining, Knowledge Discovery in Databases, KDD, Machine Learning, ML, Trainingsmenge, Information Retrieval, Faktendatenbank, Kategorie, Regel, Kategorisierung, Bewertungstabelle, Scoring Table, Attribut, Schwellwert, Trainingsmenge, Regel, Warenkorb, assoziative Regel, Wissensgewinnung, Indexterm, Information Retrieval, Text Mining, Information Retrieval, Ähnlichkeitsmaß, Information Retrieval, Daten, Record, Wissen, Information, Attribut, Feature-Detektor, Fakten-Retrieval, Fakten-Retrieval, Data Retrieval, World Wide Web, Information Retrieval, Fakten-Retrieval, Expertenmodus, Attribut, Attribut-Wert-Paar, elementare boolesche Anfrage, elementare Anfrage, boolesches Retrieval, Ergebnismenge, elementare Anfrage, Durchschnitt, Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste, invertierte Liste, kontrolliertes Vokabular, Freitextsuche, Indexterm, indexiert, indiziert, Stoppwortliste, Term, word within location list, Postings File, trunkiert, Wildcard, regulärer Ausdruck, kontrolliertes Vokabular, Vergleichbarkeit von Inhalten, computerlinguistischer Ansatz, Grundformenreduktion, Stammformenreduktion, Lemmatisierung, Stemming, invertierte Liste, lexikografische Grundform, formale Grundform, Stammform nach linguistischen Prinzipien, Verfugung, Morphologie-Analyse-System, Hochfrequenzwörterbuch, Flexionsanalyse, Kompositionsanalyse, Polysemie, Ambiguität, Synonymie, Klassifikation, Klassifikation, Attribut, Klassen, Klassierung, streng hierarchisches Klassifikationssystem, Indexterm, schwache Hierarchien, Polyhierarchien, Doppelstellen, Internationale Dezimalklassifikation, Dewey Decimal Classification, DDC, präkoordiniert, World Wide Web, Anhängezahlen, Postkoordination, Facettenklassifikation, Faktendatenbank, Thesaurus, kontrolliertes Vokabular, Relation, allgemeiner Thesaurus, Roget's Thesaurus, Thesauren in IR-Systemen, kontrolliertes Vokabular, Deskriptor, Synonym, Synonymmenge, Expansion, Rotated Index, Bibliografie, Bezugsrahmen, terminologische Kontrolle, Synonymkontrolle, Polysemkontrolle, Scope Note, Zerlegungskontrolle, begriffliche Kontrolle, assoziativer Thesaurus, Relation, semantisches Netz, Frame, Synonymmenge, Ontologie, Konsistenz, Teilmengenbeziehung, Element-Beziehung, Teil-Ganzes-Beziehung, Klassifikation, Spezialisierung, Indexterm, Ähnlichkeitsmaß, Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste, boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt, Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency, Relevance Feedback, Dokumentvektor, Relevanzurteil, Relevanz, Ähnlichkeitssuche, Query by example, Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß, Vektorraummodell, TF-IDF, Thesaurus, Cluster-Verfahren, Single-Pass-Cluster-Verfahren, Dokumentvektor, Information Retrieval, Einflussfaktoren, input policies, Dokumentformat, physical input form, Indexierungsmethode, indexing language, kontrolliertes Vokabular, Indexierungsvorgang, indexing operation, search operation, Effizienz, Effektivität, Relevanz, Relevanz, Precision, Präzision, Genauigkeit, Recall, Vollständigkeit, Vektorraummodell, Ähnlichkeitsschranke, Rangfolge, Schwelle, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Makrobewertung, nutzungsorientiert, user-oriented, Mikrobewertung, systemorientiert, system oriented, Durchschnitt, mittlere Precision, Break-Even Point, Testkollektion, Frageerweiterung, repräsentative Stichprobe, Relevanzurteil, Document-Source-Methode, Testkollektion, document test collection, TREC, Text REtrieval Conference, National Institute of Standards and Technology, NIST, Topic, Narrative, Ad-hoc-Anfrage, Routing, Relevanz, Pooling-Verfahren, Relevanzurteil, Relevanzurteil Abdeckung, Abstract, Abstract, Abstract-Sammlung, Ad-hoc-Anfrage, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsschranke, Ähnlichkeitssuche, allgemeiner Thesaurus, Ambiguität, Anfragevektor, Anfragevektor, Anhängezahlen, assoziative Regel, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut-Wert-Paar, Attribut-Wert-Paar, Auszeichnungssprache, begriffliche Kontrolle, Between-Object, Bewertungstabelle, Bezugsrahmen, Bibliografie, Bibliografie, boolesches Retrieval, boolesches Retrieval, Break-Even Point, Cluster-Verfahren, computerlinguistischer Ansatz, Cosinus-Maß, Data Mining, Data Retrieval, Data Warehouse, Daten, Datenbankmanagementsystem, DBMS, DDC, decision support system, Deskriptor, Dewey Decimal Classification, Dice-Maß, Diskriminationskraft, document frequency, document test collection, Document-Source-Methode, Dokument, Dokumentformat, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Doppelstellen, Durchschnitt, Durchschnitt, Effektivität, Effizienz, Einflussfaktoren, Element-Beziehung, elementare Anfrage, elementare Anfrage, elementare Anfrage, elementare boolesche Anfrage, Entscheidungsunterstützungssystem, Ergebnismenge, Expansion, Expertenmodus, Expertensysteme, Facettenklassifikation, Fahrplan-Auskunftssystem, Fakten-Retrieval, Fakten-Retrieval, Fakten-Retrieval, Faktendatenbank, Faktendatenbank, Faktendatenbank, Feature-Detektor, Flexionsanalyse, formale Grundform, Frageerweiterung, Frame, Freitextsuche, Genauigkeit, Gewicht, Gewichtungsmethode, Gewichtungsmethode, Grundformenreduktion, Hochfrequenzwörterbuch, Homepage, HTML, HTTP, Hypertext Markup Language, Hypertext Transfer Protocol, Hypertext-Informationssystem, IDF, IDF, indexiert, Indexierungsmethode, Indexierungsvorgang, indexing language, indexing operation, Indexterm, Indexterm, Indexterm, Indexterm, indiziert, Information, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Inhaltsklassifikation, input policies, INSPEC, Internationale Dezimalklassifikation, Intranet, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, IR, Jaccard-Maß, Kategorie, Kategorisierung, KDD, Klassen, Klassierung, Klassifikation, Klassifikation, Klassifikation, Knowledge Discovery in Databases, Knowledge Discovery in Databases, Kompositionsanalyse, Konferenzbände, Konsistenz, Konsistenz, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, Kurzzusammenfassung, Lemmatisierung, lexikografische Grundform, Link, Literaturdatenbank, Literatursuche, Literaturverweis, Literaturverweis, Machine Learning, Makrobewertung, Management-Informationssystem, Mikrobewertung, mittlere Precision, ML, Morphologie-Analyse-System, Narrative, National Institute of Standards and Technology, NIST, nutzungsorientiert, OLAP, On-Line Analytical Processing, Ontologie, Overlap-Maß, Papierbibliothek, physical input form, Polyhierarchien, Polysemie, Polysemkontrolle, Pooling-Verfahren, Postings File, Postkoordination, Potenzmenge, präkoordiniert, Präzision, Precision, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Pseudo-Cosinus-Maß, PSYNDEX, Query, Query by example, Query-Vektor, Query-Vektor, Rangfolge, Rangfolge, Rangfolge, Recall, Recherche in einer Literaturdatenbank, Record, Referat, Referenz, Regel, Regel, regulärer Ausdruck, Relation, Relation, Relevance Feedback, Relevanz, Relevanz, Relevanz, Relevanz, Relevanzurteil, Relevanzurteil, Relevanzurteil, Relevanzurteil, repräsentative Stichprobe, Roget's Thesaurus, Rotated Index, Routing, schwache Hierarchien, Schwelle, Schwelle, Schwellwert, Schwellwertfunktion, Scope Note, Scoring Table, search operation, semantisches Netz, SGML, Single-Pass-Cluster-Verfahren, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Spezialisierung, Stammform nach linguistischen Prinzipien, Stammformenreduktion, Startseite, Stemming, Stichwort, Stichwort, Stichwortkatalog, Stoppwortliste, streng hierarchisches Klassifikationssystem, Synonym, Synonymie, Synonymkontrolle, Synonymmenge, Synonymmenge, system oriented, systemorientiert, Teil-Ganzes-Beziehung, Teilmengenbeziehung, Term, Term, term frequency, term frequency-inverted document frequency, Termhäufigkeit, Termhäufigkeit, terminologische Kontrolle, Testkollektion, Testkollektion, Text Mining, Text REtrieval Conference, Textdokumente, TF, TF, TF-IDF, TF-IDF, Themengebiet, Thesauren in IR-Systemen, Thesaurus, Thesaurus, Thesaurus, Topic, Trainingsmenge, Trainingsmenge, TREC, trunkiert, Übersichtsseiten im Web, user-oriented, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell mit Attributen, Verfugung, Vergleichbarkeit von Inhalten, Visualisierungswerkzeug, Vollständigkeit, Warenkorb, Web, white space, Wildcard, Wildcard, Wissen, Wissensgewinnung, Wissensgewinnung, Within-Object, word within location list, World Wide Web, World Wide Web, World Wide Web, World Wide Web, Zerlegungskontrolle, zipfsches Gesetzt, ZPID

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 17-11-2003 erzeugt.