Inhaltsverzeichnis von R. Ferber: Information Retrieval

Reginald Ferber

Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Verzeichnisse

Inhalt

Stichwörter

Inhaltsverzeichnis

	Einführung in das Webangebot
	Vorwort zum Buch
1	Grundlagen und klassische IR-Methoden
1.1	Einführende Beispiele
1.1.1	Einführung
1.1.2	Literatursuche
1.1.3	Recherche in einer Literaturdatenbank
Abb. 1	Dokument aus der Literaturdatenbank PSYNDEX
Abb. 2	Anzahl der in INSPEC gefundenen Dokumente im ersten Halbjahr 1995
1.1.4	Faktendatenbanken und -retrieval
Abb. 3	Beispieldatenbank mit Wohnungsangeboten
1.1.5	Hypertext-Informationssysteme
1.1.6	Expertensysteme
1.1.7	Management-Informationssysteme
1.1.8	Data Mining
1.1.9	Kategorisierung mit einem Data-Mining-System
Abb. 4	Scoring Table
Abb. 5	Eine kleine Trainingsmenge
Abb. 6	Entscheidungsbaum
1.1.10	Assoziative Regeln und der Warenkorb
1.1.11	Wissensgewinnung und Information Retrieval
Abb. 7	Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995
1.2	Grundlagen
1.2.1	Informationsübertragung
Abb. 8	Grundlegendes Schema der Informationsübertragung
1.2.1.1	Datenübertragung
1.2.1.2	Komplexere Übertragungsbeispiele
1.2.2	Dialoge
Abb. 9	Einfaches Dialogschema
Abb. 10	Grundlegendes Schema eines Information-Retrieval-Systems
1.2.3	Information Retrieval
1.2.3.1	Daten, Wissen, Information
1.2.3.2	Struktur eines Information-Retrieval-Systems
Abb. 11	Schematische Darstellung eines booleschen Information-Retrieval-Systems für Texte
1.2.3.3	Information Retrieval: Definition und Abgrenzung
Abb. 12	Abgrenzung von Information Retrieval und Fakten Retrieval (Data Retrieval) nach Van Rijsbergen (1979)
1.3	Klassische Information-Retrieval-Verfahren
1.3.1	Boolesches Retrieval
1.3.1.1	Logik des booleschen Retrieval
Def. 1	Boolesches Retrieval
1.3.1.2	Boolesches Retrieval für Textdokumente
1.3.1.3	Implementierung mit invertierten Listen
1.3.1.4	Erweiterungen
1.3.2	Zeichenketten, Wörter und Konzepte
Abb. 13	Trunkierungen, die nicht nur Tiere ausschließen
1.3.2.1	Reduktion von Wörtern auf ihre Grundformen
Abb. 14	Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System
1.3.2.2	Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15	Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16	Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17	Anwendungsbeispiel des Kuhlen-Algorithmus
1.3.2.3	Lexikonbasierte Morphologie-Analyse
Abb. 18	Flexionsanalyse nach Lezius
1.3.2.4	Auflösen von Mehrdeutigkeiten
1.3.3	Klassifikationen
Def. 2	Klassifikation
Abb. 19	Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System
1.3.3.1	Internationale Dezimalklassifikation
Abb. 20	Die 10 Hauptabteilungen der internationalen Dezimalklassifikation
Abb. 21	Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation
Abb. 22	Ein Pfad durch die internationale Dezimalklassifikation
Abb. 23	Ein Pfad durch die internationale Dezimalklassifikation
1.3.3.2	Erweiterte Klassifikationssysteme
Abb. 24	Die Grundkategorien der Toman Facettenklassifikation
Abb. 25	Die Facettenwerte der ersten Grundkategorie der Toman-Facettenklassifikation
1.3.4	Thesauren
Abb. 26	Beispiele von Thesauruseinträgen
Abb. 27	Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System
1.3.5	Semantische Netze
Abb. 28	Dereferenzierung eines Pronomens
1.3.6	Das Vektorraummodell
1.3.6.1	Das Modell
Def. 3	Vektorraummodell
Abb. 29	Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4	Vektorraummodell mit Attributen
1.3.6.2	Vektorraummodell und boolesches Retrieval
Def. 5	Skalarprodukt
1.3.6.3	Gewichtungsmethoden
1.3.6.3.1	Globale Gewichtungseinflüsse
Satz 1	Zipfsches Gesetz
Abb. 30	Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31	Schematische Darstellung des zipfschen Gesetzes
Abb. 32	Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2	Lokale Gewichtungseinflüsse
1.3.6.4	Relevance Feedback
1.3.6.5	Ähnlichkeitsfunktionen
1.3.6.5.1	Das Skalarprodukt
Abb. 33	Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2	Das Cosinus-Maß
Abb. 34	Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3	Das Pseudo-Cosinus-Maß
Abb. 35	Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4	Das Dice-Maß
Abb. 36	Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5	Das Overlap-Maß
Abb. 37	Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6	Das Jaccard-Maß
Abb. 38	Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6	Das Retrieval-System SMART
Alg. 1	Single-Pass-Cluster-Verfahren
1.3.7	Bewertung und Vergleich von IR-Systemen
1.3.7.1	Einflussfaktoren
1.3.7.2	Relevanz
Def. 6	Relevanz
1.3.7.3	Precision und Recall
Def. 7	Precision und Recall
Def. 8	Precision-Recall-Diagramm
Abb. 39	Beispiel einer Ergebnisliste und der daraus berechneten Folge von Precision-Recall-Paaren
Abb. 40	Precision-Recall-Diagramm
1.3.7.4	Mittelwertbildungen
1.3.7.5	Testkollektionen
Abb. 41	Testkollektionen
1.3.7.6	Die TREC-Experimente
Abb. 42	Beispieldokument aus dem TREC-Korpus
Abb. 43	Topics aus den ersten TREC-Durchgängen
Abb. 44	Topics aus späteren TREC-Durchgängen
Abb. 45	Überprüfung der Relevanzbeurteilung bei TREC-2
Abb. 46	Größe der Grundmenge der auf Relevanz beurteilten Dokumente
Abb. 47	Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen
2	Wissensgewinnung mit Data-Mining-Methoden
2.1	Einleitung
2.2	Lernen
Abb. 48	Deduktives und probabilistisches Schließen
2.2.1	Lernen als Informationsverarbeitung
Abb. 49	Beispiele der verschiedenen Schlussfolgerungen
2.2.2	Automatisches Lernen aus Beispielen
2.2.2.1	Faktendatenbanken
2.3	Kategorisieren
2.3.1	Attribute und Kategorien
Def. 9	Kategorisierung
Def. 10	Nach einem Attribut kategorisieren
Def. 11	Induktive Kategorisierung
2.3.2	Trainings- und Testmenge
Abb. 50	Beispielmenge von Tupeln mit Kategorisierung
2.3.3	Lernparadigmen
2.3.4	Der ID3-Algorithmus
Abb. 51	Entscheidungsbaum nach dem ID3-Algorithmus
Alg. 2	ID3 im Überblick
2.3.4.1	Formale Beschreibung des ID3-Algorithmus
Alg. 3	ID3 im Detail
Abb. 52	Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.
Abb. 53	ID3-Entscheidungsbaum
2.3.4.2	Kategorisieren mit dem ID3-Algorithmus
Alg. 4	ID3-Baum anwenden
2.3.5	Rahmenbedingungen für Lernalgorithmen
2.3.5.1	Konsistenz
Def. 12	Konsistenz
Satz 2	Kategorisierbarkeit konsistenter Beispielmengen
2.3.5.2	Größe von Entscheidungsbäumen
Abb. 54	Maximaler Entscheidungsbaum mit zwei Kategorien
Abb. 55	Entscheidungsbaum mit zwei Kategorien
2.3.5.3	Wertebereiche der Attribute
2.3.5.4	Bewertung von Kategorisierungsergebnissen
Def. 13	Accuracy und Coverage
2.3.5.5	Inkonsistente Trainingsdaten
2.3.5.6	Unvollständige Beispiele
2.3.5.7	Größe und Repräsentativität der Trainingsmenge
2.3.5.8	Inkrementelles Lernen
2.3.5.9	Overfitting
2.3.5.10	Suchstrategien
Abb. 56	Gütefunktion mit lokalen Maxima
2.3.6	Einfache Regelsysteme
Def. 14	Normalformen
Abb. 57	Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.
2.3.6.1	Entscheidungslisten
Abb. 58	Konstruktion einer Entscheidungsliste
2.3.6.2	Ripple-down-Regelmengen
Alg. 5	Formale Regelbildung aus Beispielen
Abb. 59	Konstruktion eines Ripple-down Sets
2.3.6.3	Top-down- und Bottom-up-Methoden
2.3.7	Der AQ-Algorithmus
Def. 15	Selektor, Komplex, Abdeckung
Abb. 60	Verallgemeinerung von Regeln
Def. 16	Stern
Alg. 6	AQ15: Regelgenerierung
Abb. 61	Beispiele nach Kategorien sortiert
Alg. 7	AQ15: Partieller Stern
Abb. 62	Konstruktion einer Abdeckung
2.3.7.1	Generalisierungsoperationen
2.3.8	Regelsysteme mit zusammengesetzten Attributen
Abb. 63	Regeln, die auch Vergleiche von Attributen zulassen
Abb. 64	Beispiele, die sich mit einem zusammengesetzten Attribut gut trennen lassen
2.3.9	Multivariate Entscheidungsbäume
2.3.9.1	Attributauswahl
2.3.9.1.1	Sequenzielle Elimination und Auswahl
2.3.9.1.2	Verteilungsbasiertes Eliminationsverfahren
2.3.9.1.3	Das CART-Verfahren
2.3.9.2	Koeffizientenbestimmung
2.3.9.3	Evaluierung
2.4	Cluster und unscharfe Mengen
2.4.1	Cluster
Abb. 65	Cluster-Bildung mit der Hamming Distance
2.4.2	Unscharfe Mengen
Def. 17	Unscharfe Menge
Def. 18	Träger, Kern, Schnitte und Höhe
Abb. 66	Unscharfe Mengen zur Beschreibung von Lebensaltern
Satz 3	Festlegung durch Schnitte
Abb. 67	Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den Alpha-Schnitten
Def. 19	Vereinigung, Durchschnitt und Komplement
Abb. 68	Vereinigung und Durchschnitt von unscharfen Mengen
2.5	Assoziative Regeln
Def. 20	Assoziative Regel
2.5.1	Warenkorbmodell
Abb. 69	Anzahl der Regeln aus zwei Beispielsammlungen
Def. 21	Template
Def. 22	Teilordnung
2.5.2	DBLearn/DBMiner
Abb. 70	Konzepthierarchien aus DBLearn
Alg. 8	DBLearn
Abb. 71	Regelgenerierung mit DBLearn
2.6	Ein komplexeres Beispiel
2.6.1	Problemstellung
2.6.2	Lösungsansätze
2.6.3	Verfahren
2.6.4	Durchführung und Bewertung
Abb. 72	Vergleich der unterschiedlichen Missbrauchsdetektoren
3	Erweiterte Retrieval-Ansätze
3.1	Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren
3.1.1	Das MMM-Modell
3.1.2	Das Paice-Modell
3.1.3	Das P-Norm-Modell
3.2	Der probabilistische Retrieval-Ansatz
3.2.1	Wahrscheinlichkeiten in endlichen Mengen
Def. 23	Endlicher Wahrscheinlichkeitsraum
3.2.1.1	Beispiel: Würfel
Def. 24	Bedingte Wahrscheinlichkeit, Unabhängigkeit
3.2.2	Abschätzung des Retrieval-Status-Werts
Abb. 73	Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts zu einer Anfrage q = (t1,...,t6)
Abb. 74	Neue Dokumente und ihr Retrieval-Status-Wert
3.2.3	Die Robertson-Sparck-Jones-Formel
3.3	Logikbasierte Modelle des Information Retrieval
Abb. 75	Modellieren von Wissen durch Regeln
3.3.1	Imaging
Abb. 76	Imaging
Abb. 77	Probleme des Imaging
3.3.2	Bayessche Inferenznetze
Abb. 78	Inferenznetz für das Information Retrieval nach Turtle und Croft
Abb. 79	Inferenznetz, wie es zur Implementierung von INQUERY verwendet wurde (nach Turtle und Croft 1991)
3.3.3	Abduktive Anfrageoptimierung
3.4	Erfolgreiche TREC-Systeme
3.4.1	Die TREC-3-Ergebnisse von SMART
Abb. 80	Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81	Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren
3.4.2	Die TREC-4-Ergebnisse von SMART
Abb. 82	Normierung des Einflusses der Dokumentlänge
Abb. 83	Vergleich der SMART-Ergebnisse in TREC-4 mit und ohne Expansion und neuer Normierung
Abb. 84	Ergebnisse der SMART-Verfahren in TREC-4
Abb. 85	Vergleich der SMART-Ergebnisse mit anderen TREC-4-Verfahren
3.4.3	Ein Spreading-Activation-Modell
Abb. 86	Das Netz des PIRCS-Systems
Abb. 87	Ergebnisse der PIRCS-Verfahren in TREC-4
Abb. 88	Vergleich der PIRCS-Verfahren mit anderen TREC-4-Systemen
3.4.4	INQUERY in TREC-4
Abb. 89	Ergebnisse mit INQUERY in TREC4
3.4.5	Das Okapi-System
Abb. 90	Ergebnisse mit Okapi in TREC-4
3.4.6	Spezialaufgaben (TREC Tracks)
3.5	Korpusbasierte Verfahren
Abb. 91	Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen
3.5.1	Der assoziative Ansatz im IR
3.5.2	Kookurrenzverfahren
3.5.2.1	Ein Machine-Learning-Ansatz
3.5.2.2	Term-Term-Matrizen
3.5.2.3	Anwendung im IR
3.5.2.4	Häufigkeit der Terme
3.5.2.5	Expansion von Termen oder Anfragen
3.5.2.6	Größe der Dokumentensammlung
3.5.2.7	Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 92	Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche
3.5.2.8	Komplexere Kookurrenzverfahren
3.5.3	Anwendung im mehrsprachigen Retrieval
Abb. 93	Ergebnisse der Studie zum mehrsprachigen Retrieval
3.5.4	Deskriptoren bestimmen
Abb. 94	Datensatz aus der Idis Datenbank
Abb. 95	Mittlere Precision-Werte für unterschiedliche Parameterwerte
Abb. 96	Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge
3.5.5	Latent Semantic Indexing
3.5.6	Gewichtungsmethoden Lernen
Abb. 97	Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley
3.5.7	Social oder Collaborative Filtering
4	Information Retrieval und das Web
4.1	Explizit strukturierte Dokumente
4.1.1	Standard Generalized Markup Language (SGML)
4.1.1.1	SGML-Elemente
4.1.1.2	Elementattribute
4.1.1.3	SGML-Entities
4.1.2	HTML
4.1.3	XML
4.1.3.1	Verweise: XPointer und XLink
4.1.3.2	XML Schema
4.1.3.3	XPath, XQuery
4.1.4	Suche nach und in XML-Dokumenten
4.1.4.1	Anwendungen von XML bei der Suche
4.1.4.2	Indexierungsmethoden
4.1.4.3	Modelle für die Suche in XML-Dokumenten
4.1.4.4	Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten
4.1.4.5	Suche bei unterschiedlichen DTDs
4.2	Metadaten
4.2.1	Dublin-Core-Metadaten
4.2.2	Hierarchisch strukturierte Metadaten
Abb. 98	Die neun Top-Level-Elemente der LOM-Spezifikation
Abb. 99	Ein Zweig der LOM-Spezifikation
4.2.3	PICS
4.2.4	RDF und das Semantische Web
4.2.4.1	Resource Description Framework
Abb. 100	Dublin-Core-Beschreibung eines Artikels mit dem Resource Description Framework (RDF)
4.2.4.2	Pläne für ein Semantisches Web
Abb. 101	Ein RDF-Graph, mit dem die Eigenschaft `eg:author` definiert wird
4.3	Suche im World Wide Web
4.3.1	Das Web als Dokumentensammlung
4.3.1.1	Medienarten
4.3.1.2	Sprache
4.3.1.3	Länge und Granularität
4.3.1.4	Dynamik und Alter von Web-Seiten
4.3.1.5	Anbieter und ihre Ziele
4.3.1.6	Zielgruppen
4.3.1.7	Inhalte
4.3.1.8	Spamming
4.3.2	Suchmechanismen der Web-Protokolle
4.3.3	Hierarchische Verzeichnisse oder Web Directories
4.3.3.1	Klassifikation des Open Directory Project
Abb. 102	Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit Beispielen der zweiten Hierarchiestufe
4.3.4	Web-Suchmaschinen
4.3.4.1	Web-Roboter, Crawler oder Spider
4.3.4.2	Ranking-Strategien
4.3.4.3	Ranking nach externen Daten
Def. 25	PageRank
4.3.4.4	Metasuchdienste
4.3.5	Spezialisierte und verteilte Sammlungen
4.3.5.1	Der Z39.50-Standard
4.3.5.2	Beispiele verteilter Sammlungen
4.3.5.3	Peer-to-Peer-Netze
4.3.6	Digitale Bibliotheken
4.3.6.1	Inhalte einer digitalen Bibliothek
4.3.6.2	Dienste
4.3.6.3	Archivierung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am erzeugt.