Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1: Grundlagen und klassische IR-Methoden

1.3: Klassische Information-Retrieval-Verfahren

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1	Grundlagen und klassische IR-Methoden
1.1	Einführende Beispiele
1.1.1	Einführung
1.1.2	Literatursuche
1.1.3	Recherche in einer Literaturdatenbank
Abb. 1	Dokument aus der Literaturdatenbank PSYNDEX
Abb. 2	Anzahl der in INSPEC gefundenen Dokumente im ersten Halbjahr 1995
1.1.4	Faktendatenbanken und -retrieval
Abb. 3	Beispieldatenbank mit Wohnungsangeboten
1.1.5	Hypertext-Informationssysteme
1.1.6	Expertensysteme
1.1.7	Management-Informationssysteme
1.1.8	Data Mining
1.1.9	Kategorisierung mit einem Data-Mining-System
Abb. 4	Scoring Table
Abb. 5	Eine kleine Trainingsmenge
Abb. 6	Entscheidungsbaum
1.1.10	Assoziative Regeln und der Warenkorb
1.1.11	Wissensgewinnung und Information Retrieval
Abb. 7	Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995
1.2	Grundlagen
1.2.1	Informationsübertragung
Abb. 8	Grundlegendes Schema der Informationsübertragung
1.2.1.1	Datenübertragung
1.2.1.2	Komplexere Übertragungsbeispiele
1.2.2	Dialoge
Abb. 9	Einfaches Dialogschema
Abb. 10	Grundlegendes Schema eines Information-Retrieval-Systems
1.2.3	Information Retrieval
1.2.3.1	Daten, Wissen, Information
1.2.3.2	Struktur eines Information-Retrieval-Systems
Abb. 11	Schematische Darstellung eines booleschen Information-Retrieval-Systems für Texte
1.2.3.3	Information Retrieval: Definition und Abgrenzung
Abb. 12	Abgrenzung von Information Retrieval und Fakten Retrieval (Data Retrieval) nach Van Rijsbergen (1979)
1.3	Klassische Information-Retrieval-Verfahren
1.3.1	Boolesches Retrieval
1.3.1.1	Logik des booleschen Retrieval
Def. 1	Boolesches Retrieval
1.3.1.2	Boolesches Retrieval für Textdokumente
1.3.1.3	Implementierung mit invertierten Listen
1.3.1.4	Erweiterungen
1.3.2	Zeichenketten, Wörter und Konzepte
Abb. 13	Trunkierungen, die nicht nur Tiere ausschließen
1.3.2.1	Reduktion von Wörtern auf ihre Grundformen
Abb. 14	Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System
1.3.2.2	Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15	Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16	Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17	Anwendungsbeispiel des Kuhlen-Algorithmus
1.3.2.3	Lexikonbasierte Morphologie-Analyse
Abb. 18	Flexionsanalyse nach Lezius
1.3.2.4	Auflösen von Mehrdeutigkeiten
1.3.3	Klassifikationen
Def. 2	Klassifikation
Abb. 19	Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System
1.3.3.1	Internationale Dezimalklassifikation
Abb. 20	Die 10 Hauptabteilungen der internationalen Dezimalklassifikation
Abb. 21	Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation
Abb. 22	Ein Pfad durch die internationale Dezimalklassifikation
Abb. 23	Ein Pfad durch die internationale Dezimalklassifikation
1.3.3.2	Erweiterte Klassifikationssysteme
Abb. 24	Die Grundkategorien der Toman Facettenklassifikation
Abb. 25	Die Facettenwerte der ersten Grundkategorie der Toman-Facettenklassifikation
1.3.4	Thesauren
Abb. 26	Beispiele von Thesauruseinträgen
Abb. 27	Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System
1.3.5	Semantische Netze
Abb. 28	Dereferenzierung eines Pronomens
1.3.6	Das Vektorraummodell
1.3.6.1	Das Modell
Def. 3	Vektorraummodell
Abb. 29	Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4	Vektorraummodell mit Attributen
1.3.6.2	Vektorraummodell und boolesches Retrieval
Def. 5	Skalarprodukt
1.3.6.3	Gewichtungsmethoden
1.3.6.3.1	Globale Gewichtungseinflüsse
Satz 1	Zipfsches Gesetz
Abb. 30	Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31	Schematische Darstellung des zipfschen Gesetzes
Abb. 32	Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2	Lokale Gewichtungseinflüsse
1.3.6.4	Relevance Feedback
1.3.6.5	Ähnlichkeitsfunktionen
1.3.6.5.1	Das Skalarprodukt
Abb. 33	Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2	Das Cosinus-Maß
Abb. 34	Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3	Das Pseudo-Cosinus-Maß
Abb. 35	Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4	Das Dice-Maß
Abb. 36	Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5	Das Overlap-Maß
Abb. 37	Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6	Das Jaccard-Maß
Abb. 38	Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6	Das Retrieval-System SMART
Alg. 1	Single-Pass-Cluster-Verfahren
1.3.7	Bewertung und Vergleich von IR-Systemen
1.3.7.1	Einflussfaktoren
1.3.7.2	Relevanz
Def. 6	Relevanz
1.3.7.3	Precision und Recall
Def. 7	Precision und Recall
Def. 8	Precision-Recall-Diagramm
Abb. 39	Beispiel einer Ergebnisliste und der daraus berechneten Folge von Precision-Recall-Paaren
Abb. 40	Precision-Recall-Diagramm
1.3.7.4	Mittelwertbildungen
1.3.7.5	Testkollektionen
Abb. 41	Testkollektionen
1.3.7.6	Die TREC-Experimente
Abb. 42	Beispieldokument aus dem TREC-Korpus
Abb. 43	Topics aus den ersten TREC-Durchgängen
Abb. 44	Topics aus späteren TREC-Durchgängen
Abb. 45	Überprüfung der Relevanzbeurteilung bei TREC-2
Abb. 46	Größe der Grundmenge der auf Relevanz beurteilten Dokumente
Abb. 47	Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen

World Wide Web, Web, HTTP, Hypertext Transfer Protocol, Auszeichnungssprache, HTML, Hypertext Markup Language, Information Retrieval, IR, Dokument, Literatursuche, Literaturverweis, Bibliografie, Abstract-Sammlung, Konferenzbände, Papierbibliothek, Stichwortkatalog, Inhaltsklassifikation, Themengebiet, Literaturdatenbank, Übersichtsseiten im Web, Recherche in einer Literaturdatenbank, INSPEC, Kurzzusammenfassung, Abstract, Referat, Stichwort, PSYNDEX, ZPID, Literaturverweis, Referenz, Stichwort, white space, Wildcard, Faktendatenbank, Datenbankmanagementsystem, DBMS, Konsistenz, Hypertext-Informationssystem, World Wide Web, Startseite, Homepage, Link, Expertensysteme, Fahrplan-Auskunftssystem, Management-Informationssystem, Entscheidungsunterstützungssystem, decision support system, Data Warehouse, Intranet, OLAP, On-Line Analytical Processing, Visualisierungswerkzeug, Wissensgewinnung, Knowledge Discovery in Databases, Data Mining, Knowledge Discovery in Databases, KDD, Machine Learning, ML, Trainingsmenge, Information Retrieval, Faktendatenbank, Kategorie, Regel, Kategorisierung, Bewertungstabelle, Scoring Table, Attribut, Schwellwert, Trainingsmenge, Regel, Warenkorb, assoziative Regel, Wissensgewinnung, Indexterm, Information Retrieval, Text Mining, Information Retrieval, Ähnlichkeitsmaß, Information Retrieval, Daten, Record, Wissen, Information, Attribut, Feature-Detektor, Fakten-Retrieval, Fakten-Retrieval, Data Retrieval, World Wide Web, Information Retrieval, Fakten-Retrieval, Expertenmodus, Attribut, Attribut-Wert-Paar, elementare boolesche Anfrage, elementare Anfrage, boolesches Retrieval, Ergebnismenge, elementare Anfrage, Durchschnitt, Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste, invertierte Liste, kontrolliertes Vokabular, Freitextsuche, Indexterm, indexiert, indiziert, Stoppwortliste, Term, word within location list, Postings File, trunkiert, Wildcard, regulärer Ausdruck, kontrolliertes Vokabular, Vergleichbarkeit von Inhalten, computerlinguistischer Ansatz, Grundformenreduktion, Stammformenreduktion, Lemmatisierung, Stemming, invertierte Liste, lexikografische Grundform, formale Grundform, Stammform nach linguistischen Prinzipien, Verfugung, Morphologie-Analyse-System, Hochfrequenzwörterbuch, Flexionsanalyse, Kompositionsanalyse, Polysemie, Ambiguität, Synonymie, Klassifikation, Klassifikation, Attribut, Klassen, Klassierung, streng hierarchisches Klassifikationssystem, Indexterm, schwache Hierarchien, Polyhierarchien, Doppelstellen, Internationale Dezimalklassifikation, Dewey Decimal Classification, DDC, präkoordiniert, World Wide Web, Anhängezahlen, Postkoordination, Facettenklassifikation, Faktendatenbank, Thesaurus, kontrolliertes Vokabular, Relation, allgemeiner Thesaurus, Roget's Thesaurus, Thesauren in IR-Systemen, kontrolliertes Vokabular, Deskriptor, Synonym, Synonymmenge, Expansion, Rotated Index, Bibliografie, Bezugsrahmen, terminologische Kontrolle, Synonymkontrolle, Polysemkontrolle, Scope Note, Zerlegungskontrolle, begriffliche Kontrolle, assoziativer Thesaurus, Relation, semantisches Netz, Frame, Synonymmenge, Ontologie, Konsistenz, Teilmengenbeziehung, Element-Beziehung, Teil-Ganzes-Beziehung, Klassifikation, Spezialisierung, Indexterm, Ähnlichkeitsmaß, Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste, boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt, Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency, Relevance Feedback, Dokumentvektor, Relevanzurteil, Relevanz, Ähnlichkeitssuche, Query by example, Ähnlichkeitsfunktion, Skalarprodukt, Ähnlichkeitsmaß, Skalarprodukt, Cosinus-Maß, Skalarprodukt, Pseudo-Cosinus-Maß, Dice-Maß, Overlap-Maß, Jaccard-Maß, Vektorraummodell, TF-IDF, Thesaurus, Cluster-Verfahren, Single-Pass-Cluster-Verfahren, Dokumentvektor, Information Retrieval, Einflussfaktoren, input policies, Dokumentformat, physical input form, Indexierungsmethode, indexing language, kontrolliertes Vokabular, Indexierungsvorgang, indexing operation, search operation, Effizienz, Effektivität, Relevanz, Relevanz, Precision, Präzision, Genauigkeit, Recall, Vollständigkeit, Vektorraummodell, Ähnlichkeitsschranke, Rangfolge, Schwelle, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Makrobewertung, nutzungsorientiert, user-oriented, Mikrobewertung, systemorientiert, system oriented, Durchschnitt, mittlere Precision, Break-Even Point, Testkollektion, Frageerweiterung, repräsentative Stichprobe, Relevanzurteil, Document-Source-Methode, Testkollektion, document test collection, TREC, Text REtrieval Conference, National Institute of Standards and Technology, NIST, Topic, Narrative, Ad-hoc-Anfrage, Routing, Relevanz, Pooling-Verfahren, Relevanzurteil, Relevanzurteil

Abdeckung, Abstract, Abstract, Abstract-Sammlung, Ad-hoc-Anfrage, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsmaß, Ähnlichkeitsschranke, Ähnlichkeitssuche, allgemeiner Thesaurus, Ambiguität, Anfragevektor, Anfragevektor, Anhängezahlen, assoziative Regel, assoziativer Thesaurus, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut, Attribut-Wert-Paar, Attribut-Wert-Paar, Auszeichnungssprache, begriffliche Kontrolle, Between-Object, Bewertungstabelle, Bezugsrahmen, Bibliografie, Bibliografie, boolesches Retrieval, boolesches Retrieval, Break-Even Point, Cluster-Verfahren, computerlinguistischer Ansatz, Cosinus-Maß, Data Mining, Data Retrieval, Data Warehouse, Daten, Datenbankmanagementsystem, DBMS, DDC, decision support system, Deskriptor, Dewey Decimal Classification, Dice-Maß, Diskriminationskraft, document frequency, document test collection, Document-Source-Methode, Dokument, Dokumentformat, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Doppelstellen, Durchschnitt, Durchschnitt, Effektivität, Effizienz, Einflussfaktoren, Element-Beziehung, elementare Anfrage, elementare Anfrage, elementare Anfrage, elementare boolesche Anfrage, Entscheidungsunterstützungssystem, Ergebnismenge, Expansion, Expertenmodus, Expertensysteme, Facettenklassifikation, Fahrplan-Auskunftssystem, Fakten-Retrieval, Fakten-Retrieval, Fakten-Retrieval, Faktendatenbank, Faktendatenbank, Faktendatenbank, Feature-Detektor, Flexionsanalyse, formale Grundform, Frageerweiterung, Frame, Freitextsuche, Genauigkeit, Gewicht, Gewichtungsmethode, Gewichtungsmethode, Grundformenreduktion, Hochfrequenzwörterbuch, Homepage, HTML, HTTP, Hypertext Markup Language, Hypertext Transfer Protocol, Hypertext-Informationssystem, IDF, IDF, indexiert, Indexierungsmethode, Indexierungsvorgang, indexing language, indexing operation, Indexterm, Indexterm, Indexterm, Indexterm, indiziert, Information, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Information Retrieval, Inhaltsklassifikation, input policies, INSPEC, Internationale Dezimalklassifikation, Intranet, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, invertierte Liste, IR, Jaccard-Maß, Kategorie, Kategorisierung, KDD, Klassen, Klassierung, Klassifikation, Klassifikation, Klassifikation, Knowledge Discovery in Databases, Knowledge Discovery in Databases, Kompositionsanalyse, Konferenzbände, Konsistenz, Konsistenz, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, kontrolliertes Vokabular, Kurzzusammenfassung, Lemmatisierung, lexikografische Grundform, Link, Literaturdatenbank, Literatursuche, Literaturverweis, Literaturverweis, Machine Learning, Makrobewertung, Management-Informationssystem, Mikrobewertung, mittlere Precision, ML, Morphologie-Analyse-System, Narrative, National Institute of Standards and Technology, NIST, nutzungsorientiert, OLAP, On-Line Analytical Processing, Ontologie, Overlap-Maß, Papierbibliothek, physical input form, Polyhierarchien, Polysemie, Polysemkontrolle, Pooling-Verfahren, Postings File, Postkoordination, Potenzmenge, präkoordiniert, Präzision, Precision, Precision-Recall-Diagramm, Precision-Recall-Diagramm, Pseudo-Cosinus-Maß, PSYNDEX, Query, Query by example, Query-Vektor, Query-Vektor, Rangfolge, Rangfolge, Rangfolge, Recall, Recherche in einer Literaturdatenbank, Record, Referat, Referenz, Regel, Regel, regulärer Ausdruck, Relation, Relation, Relevance Feedback, Relevanz, Relevanz, Relevanz, Relevanz, Relevanzurteil, Relevanzurteil, Relevanzurteil, Relevanzurteil, repräsentative Stichprobe, Roget's Thesaurus, Rotated Index, Routing, schwache Hierarchien, Schwelle, Schwelle, Schwellwert, Schwellwertfunktion, Scope Note, Scoring Table, search operation, semantisches Netz, SGML, Single-Pass-Cluster-Verfahren, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Skalarprodukt, Spezialisierung, Stammform nach linguistischen Prinzipien, Stammformenreduktion, Startseite, Stemming, Stichwort, Stichwort, Stichwortkatalog, Stoppwortliste, streng hierarchisches Klassifikationssystem, Synonym, Synonymie, Synonymkontrolle, Synonymmenge, Synonymmenge, system oriented, systemorientiert, Teil-Ganzes-Beziehung, Teilmengenbeziehung, Term, Term, term frequency, term frequency-inverted document frequency, Termhäufigkeit, Termhäufigkeit, terminologische Kontrolle, Testkollektion, Testkollektion, Text Mining, Text REtrieval Conference, Textdokumente, TF, TF, TF-IDF, TF-IDF, Themengebiet, Thesauren in IR-Systemen, Thesaurus, Thesaurus, Thesaurus, Topic, Trainingsmenge, Trainingsmenge, TREC, trunkiert, Übersichtsseiten im Web, user-oriented, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell mit Attributen, Verfugung, Vergleichbarkeit von Inhalten, Visualisierungswerkzeug, Vollständigkeit, Warenkorb, Web, white space, Wildcard, Wildcard, Wissen, Wissensgewinnung, Wissensgewinnung, Within-Object, word within location list, World Wide Web, World Wide Web, World Wide Web, World Wide Web, Zerlegungskontrolle, zipfsches Gesetzt, ZPID

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 17-11-2003 erzeugt.

1: Grundlagen und klassische IR-Methoden

1.1: Einführende Beispiele

1.2: Grundlagen

1.3: Klassische Information-Retrieval-Verfahren