Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Verzeichnisse
InhaltStichwörter

Inhaltsverzeichnis

Einführung in das Webangebot
Vorwort zum Buch
1Grundlagen und klassische IR-Methoden
1.1Einführende Beispiele
1.1.1Einführung
1.1.2Literatursuche
1.1.3Recherche in einer Literaturdatenbank
Abb. 1 Dokument aus der Literaturdatenbank PSYNDEX
Abb. 2 Anzahl der in INSPEC gefundenen Dokumente im ersten Halbjahr 1995
1.1.4Faktendatenbanken und -retrieval
Abb. 3 Beispieldatenbank mit Wohnungsangeboten
1.1.5Hypertext-Informationssysteme
1.1.6Expertensysteme
1.1.7Management-Informationssysteme
1.1.8Data Mining
1.1.9Kategorisierung mit einem Data-Mining-System
Abb. 4 Scoring Table
Abb. 5 Eine kleine Trainingsmenge
Abb. 6 Entscheidungsbaum
1.1.10Assoziative Regeln und der Warenkorb
1.1.11Wissensgewinnung und Information Retrieval
Abb. 7 Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995
1.2Grundlagen
1.2.1Informationsübertragung
Abb. 8 Grundlegendes Schema der Informationsübertragung
1.2.1.1Datenübertragung
1.2.1.2Komplexere Übertragungsbeispiele
1.2.2Dialoge
Abb. 9 Einfaches Dialogschema
Abb. 10 Grundlegendes Schema eines Information-Retrieval-Systems
1.2.3Information Retrieval
1.2.3.1Daten, Wissen, Information
1.2.3.2Struktur eines Information-Retrieval-Systems
Abb. 11 Schematische Darstellung eines booleschen Information-Retrieval-Systems für Texte
1.2.3.3Information Retrieval: Definition und Abgrenzung
Abb. 12 Abgrenzung von Information Retrieval und Fakten Retrieval (Data Retrieval) nach Van Rijsbergen (1979)
1.3Klassische Information-Retrieval-Verfahren
1.3.1Boolesches Retrieval
1.3.1.1Logik des booleschen Retrieval
Def. 1 Boolesches Retrieval
1.3.1.2Boolesches Retrieval für Textdokumente
1.3.1.3Implementierung mit invertierten Listen
1.3.1.4Erweiterungen
1.3.2Zeichenketten, Wörter und Konzepte
Abb. 13 Trunkierungen, die nicht nur Tiere ausschließen
1.3.2.1Reduktion von Wörtern auf ihre Grundformen
Abb. 14 Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System
1.3.2.2Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15 Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16 Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17 Anwendungsbeispiel des Kuhlen-Algorithmus
1.3.2.3Lexikonbasierte Morphologie-Analyse
Abb. 18 Flexionsanalyse nach Lezius
1.3.2.4Auflösen von Mehrdeutigkeiten
1.3.3Klassifikationen
Def. 2 Klassifikation
Abb. 19 Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System
1.3.3.1Internationale Dezimalklassifikation
Abb. 20 Die 10 Hauptabteilungen der internationalen Dezimalklassifikation
Abb. 21 Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation
Abb. 22 Ein Pfad durch die internationale Dezimalklassifikation
Abb. 23 Ein Pfad durch die internationale Dezimalklassifikation
1.3.3.2Erweiterte Klassifikationssysteme
Abb. 24 Die Grundkategorien der Toman Facettenklassifikation
Abb. 25 Die Facettenwerte der ersten Grundkategorie der Toman-Facettenklassifikation
1.3.4Thesauren
Abb. 26 Beispiele von Thesauruseinträgen
Abb. 27 Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System
1.3.5Semantische Netze
Abb. 28 Dereferenzierung eines Pronomens
1.3.6Das Vektorraummodell
1.3.6.1Das Modell
Def. 3 Vektorraummodell
Abb. 29 Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4 Vektorraummodell mit Attributen
1.3.6.2Vektorraummodell und boolesches Retrieval
Def. 5 Skalarprodukt
1.3.6.3Gewichtungsmethoden
1.3.6.3.1Globale Gewichtungseinflüsse
Satz 1 Zipfsches Gesetz
Abb. 30 Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31 Schematische Darstellung des zipfschen Gesetzes
Abb. 32 Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2Lokale Gewichtungseinflüsse
1.3.6.4Relevance Feedback
1.3.6.5Ähnlichkeitsfunktionen
1.3.6.5.1Das Skalarprodukt
Abb. 33 Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene
1.3.6.5.2Das Cosinus-Maß
Abb. 34 Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene
1.3.6.5.3Das Pseudo-Cosinus-Maß
Abb. 35 Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene
1.3.6.5.4Das Dice-Maß
Abb. 36 Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene
1.3.6.5.5Das Overlap-Maß
Abb. 37 Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene
1.3.6.5.6Das Jaccard-Maß
Abb. 38 Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene
1.3.6.6Das Retrieval-System SMART
Alg. 1 Single-Pass-Cluster-Verfahren
1.3.7Bewertung und Vergleich von IR-Systemen
1.3.7.1Einflussfaktoren
1.3.7.2Relevanz
Def. 6 Relevanz
1.3.7.3Precision und Recall
Def. 7 Precision und Recall
Def. 8 Precision-Recall-Diagramm
Abb. 39 Beispiel einer Ergebnisliste und der daraus berechneten Folge von Precision-Recall-Paaren
Abb. 40 Precision-Recall-Diagramm
1.3.7.4Mittelwertbildungen
1.3.7.5Testkollektionen
Abb. 41 Testkollektionen
1.3.7.6Die TREC-Experimente
Abb. 42 Beispieldokument aus dem TREC-Korpus
Abb. 43 Topics aus den ersten TREC-Durchgängen
Abb. 44 Topics aus späteren TREC-Durchgängen
Abb. 45 Überprüfung der Relevanzbeurteilung bei TREC-2
Abb. 46 Größe der Grundmenge der auf Relevanz beurteilten Dokumente
Abb. 47 Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen
2Wissensgewinnung mit Data-Mining-Methoden
2.1Einleitung
2.2Lernen
Abb. 48 Deduktives und probabilistisches Schließen
2.2.1Lernen als Informationsverarbeitung
Abb. 49 Beispiele der verschiedenen Schlussfolgerungen
2.2.2Automatisches Lernen aus Beispielen
2.2.2.1Faktendatenbanken
2.3Kategorisieren
2.3.1Attribute und Kategorien
Def. 9 Kategorisierung
Def. 10 Nach einem Attribut kategorisieren
Def. 11 Induktive Kategorisierung
2.3.2Trainings- und Testmenge
Abb. 50 Beispielmenge von Tupeln mit Kategorisierung
2.3.3Lernparadigmen
2.3.4Der ID3-Algorithmus
Abb. 51 Entscheidungsbaum nach dem ID3-Algorithmus
Alg. 2 ID3 im Überblick
2.3.4.1Formale Beschreibung des ID3-Algorithmus
Alg. 3 ID3 im Detail
Abb. 52 Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.
Abb. 53 ID3-Entscheidungsbaum
2.3.4.2Kategorisieren mit dem ID3-Algorithmus
Alg. 4 ID3-Baum anwenden
2.3.5Rahmenbedingungen für Lernalgorithmen
2.3.5.1Konsistenz
Def. 12 Konsistenz
Satz 2 Kategorisierbarkeit konsistenter Beispielmengen
2.3.5.2Größe von Entscheidungsbäumen
Abb. 54 Maximaler Entscheidungsbaum mit zwei Kategorien
Abb. 55 Entscheidungsbaum mit zwei Kategorien
2.3.5.3Wertebereiche der Attribute
2.3.5.4Bewertung von Kategorisierungsergebnissen
Def. 13 Accuracy und Coverage
2.3.5.5Inkonsistente Trainingsdaten
2.3.5.6Unvollständige Beispiele
2.3.5.7Größe und Repräsentativität der Trainingsmenge
2.3.5.8Inkrementelles Lernen
2.3.5.9Overfitting
2.3.5.10Suchstrategien
Abb. 56 Gütefunktion mit lokalen Maxima
2.3.6Einfache Regelsysteme
Def. 14 Normalformen
Abb. 57 Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.
2.3.6.1Entscheidungslisten
Abb. 58 Konstruktion einer Entscheidungsliste
2.3.6.2Ripple-down-Regelmengen
Alg. 5 Formale Regelbildung aus Beispielen
Abb. 59 Konstruktion eines Ripple-down Sets
2.3.6.3Top-down- und Bottom-up-Methoden
2.3.7Der AQ-Algorithmus
Def. 15 Selektor, Komplex, Abdeckung
Abb. 60 Verallgemeinerung von Regeln
Def. 16 Stern
Alg. 6 AQ15: Regelgenerierung
Abb. 61 Beispiele nach Kategorien sortiert
Alg. 7 AQ15: Partieller Stern
Abb. 62 Konstruktion einer Abdeckung
2.3.7.1Generalisierungsoperationen
2.3.8Regelsysteme mit zusammengesetzten Attributen
Abb. 63 Regeln, die auch Vergleiche von Attributen zulassen
Abb. 64 Beispiele, die sich mit einem zusammengesetzten Attribut gut trennen lassen
2.3.9Multivariate Entscheidungsbäume
2.3.9.1Attributauswahl
2.3.9.1.1Sequenzielle Elimination und Auswahl
2.3.9.1.2Verteilungsbasiertes Eliminationsverfahren
2.3.9.1.3Das CART-Verfahren
2.3.9.2Koeffizientenbestimmung
2.3.9.3Evaluierung
2.4Cluster und unscharfe Mengen
2.4.1Cluster
Abb. 65 Cluster-Bildung mit der Hamming Distance
2.4.2Unscharfe Mengen
Def. 17 Unscharfe Menge
Def. 18 Träger, Kern, Schnitte und Höhe
Abb. 66 Unscharfe Mengen zur Beschreibung von Lebensaltern
Satz 3 Festlegung durch Schnitte
Abb. 67 Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den Alpha-Schnitten
Def. 19 Vereinigung, Durchschnitt und Komplement
Abb. 68 Vereinigung und Durchschnitt von unscharfen Mengen
2.5Assoziative Regeln
Def. 20 Assoziative Regel
2.5.1Warenkorbmodell
Abb. 69 Anzahl der Regeln aus zwei Beispielsammlungen
Def. 21 Template
Def. 22 Teilordnung
2.5.2DBLearn/DBMiner
Abb. 70 Konzepthierarchien aus DBLearn
Alg. 8 DBLearn
Abb. 71 Regelgenerierung mit DBLearn
2.6Ein komplexeres Beispiel
2.6.1Problemstellung
2.6.2Lösungsansätze
2.6.3Verfahren
2.6.4Durchführung und Bewertung
Abb. 72 Vergleich der unterschiedlichen Missbrauchsdetektoren
3Erweiterte Retrieval-Ansätze
3.1Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren
3.1.1Das MMM-Modell
3.1.2Das Paice-Modell
3.1.3Das P-Norm-Modell
3.2Der probabilistische Retrieval-Ansatz
3.2.1Wahrscheinlichkeiten in endlichen Mengen
Def. 23 Endlicher Wahrscheinlichkeitsraum
3.2.1.1Beispiel: Würfel
Def. 24 Bedingte Wahrscheinlichkeit, Unabhängigkeit
3.2.2Abschätzung des Retrieval-Status-Werts
Abb. 73 Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts zu einer Anfrage q = (t1,...,t6)
Abb. 74 Neue Dokumente und ihr Retrieval-Status-Wert
3.2.3Die Robertson-Sparck-Jones-Formel
3.3Logikbasierte Modelle des Information Retrieval
Abb. 75 Modellieren von Wissen durch Regeln
3.3.1Imaging
Abb. 76 Imaging
Abb. 77 Probleme des Imaging
3.3.2Bayessche Inferenznetze
Abb. 78 Inferenznetz für das Information Retrieval nach Turtle und Croft
Abb. 79 Inferenznetz, wie es zur Implementierung von INQUERY verwendet wurde (nach Turtle und Croft 1991)
3.3.3Abduktive Anfrageoptimierung
3.4Erfolgreiche TREC-Systeme
3.4.1Die TREC-3-Ergebnisse von SMART
Abb. 80 Ergebnisse der SMART-Verfahren in TREC 3
Abb. 81 Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren
3.4.2Die TREC-4-Ergebnisse von SMART
Abb. 82 Normierung des Einflusses der Dokumentlänge
Abb. 83 Vergleich der SMART-Ergebnisse in TREC-4 mit und ohne Expansion und neuer Normierung
Abb. 84 Ergebnisse der SMART-Verfahren in TREC-4
Abb. 85 Vergleich der SMART-Ergebnisse mit anderen TREC-4-Verfahren
3.4.3Ein Spreading-Activation-Modell
Abb. 86 Das Netz des PIRCS-Systems
Abb. 87 Ergebnisse der PIRCS-Verfahren in TREC-4
Abb. 88 Vergleich der PIRCS-Verfahren mit anderen TREC-4-Systemen
3.4.4INQUERY in TREC-4
Abb. 89 Ergebnisse mit INQUERY in TREC4
3.4.5Das Okapi-System
Abb. 90 Ergebnisse mit Okapi in TREC-4
3.4.6Spezialaufgaben (TREC Tracks)
3.5Korpusbasierte Verfahren
Abb. 91 Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen
3.5.1Der assoziative Ansatz im IR
3.5.2Kookurrenzverfahren
3.5.2.1Ein Machine-Learning-Ansatz
3.5.2.2Term-Term-Matrizen
3.5.2.3Anwendung im IR
3.5.2.4Häufigkeit der Terme
3.5.2.5Expansion von Termen oder Anfragen
3.5.2.6Größe der Dokumentensammlung
3.5.2.7Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 92 Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche
3.5.2.8Komplexere Kookurrenzverfahren
3.5.3Anwendung im mehrsprachigen Retrieval
Abb. 93 Ergebnisse der Studie zum mehrsprachigen Retrieval
3.5.4Deskriptoren bestimmen
Abb. 94 Datensatz aus der Idis Datenbank
Abb. 95 Mittlere Precision-Werte für unterschiedliche Parameterwerte
Abb. 96 Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge
3.5.5Latent Semantic Indexing
3.5.6Gewichtungsmethoden Lernen
Abb. 97 Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley
3.5.7Social oder Collaborative Filtering
4Information Retrieval und das Web
4.1Explizit strukturierte Dokumente
4.1.1Standard Generalized Markup Language (SGML)
4.1.1.1SGML-Elemente
4.1.1.2Elementattribute
4.1.1.3SGML-Entities
4.1.2HTML
4.1.3XML
4.1.3.1Verweise: XPointer und XLink
4.1.3.2XML Schema
4.1.3.3XPath, XQuery
4.1.4Suche nach und in XML-Dokumenten
4.1.4.1Anwendungen von XML bei der Suche
4.1.4.2Indexierungsmethoden
4.1.4.3Modelle für die Suche in XML-Dokumenten
4.1.4.4Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten
4.1.4.5Suche bei unterschiedlichen DTDs
4.2Metadaten
4.2.1Dublin-Core-Metadaten
4.2.2Hierarchisch strukturierte Metadaten
Abb. 98 Die neun Top-Level-Elemente der LOM-Spezifikation
Abb. 99 Ein Zweig der LOM-Spezifikation
4.2.3PICS
4.2.4RDF und das Semantische Web
4.2.4.1Resource Description Framework
Abb. 100 Dublin-Core-Beschreibung eines Artikels mit dem Resource Description Framework (RDF)
4.2.4.2Pläne für ein Semantisches Web
Abb. 101 Ein RDF-Graph, mit dem die Eigenschaft eg:author definiert wird
4.3Suche im World Wide Web
4.3.1Das Web als Dokumentensammlung
4.3.1.1Medienarten
4.3.1.2Sprache
4.3.1.3Länge und Granularität
4.3.1.4Dynamik und Alter von Web-Seiten
4.3.1.5Anbieter und ihre Ziele
4.3.1.6Zielgruppen
4.3.1.7Inhalte
4.3.1.8Spamming
4.3.2Suchmechanismen der Web-Protokolle
4.3.3Hierarchische Verzeichnisse oder Web Directories
4.3.3.1Klassifikation des Open Directory Project
Abb. 102 Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit Beispielen der zweiten Hierarchiestufe
4.3.4Web-Suchmaschinen
4.3.4.1Web-Roboter, Crawler oder Spider
4.3.4.2Ranking-Strategien
4.3.4.3Ranking nach externen Daten
Def. 25 PageRank
4.3.4.4Metasuchdienste
4.3.5Spezialisierte und verteilte Sammlungen
4.3.5.1Der Z39.50-Standard
4.3.5.2Beispiele verteilter Sammlungen
4.3.5.3Peer-to-Peer-Netze
4.3.6Digitale Bibliotheken
4.3.6.1Inhalte einer digitalen Bibliothek
4.3.6.2Dienste
4.3.6.3Archivierung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am erzeugt.