Vorwort
1.1: Literatursuche
1.2: Beispiel einer Datenbankrecherche
Abb. 1: Dokument aus der Literaturdatenbank PSYNDEX
Abb. 2: Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995
1.3: Faktendatenbanken und -retrieval
Abb. 3: Beispiel-Datenbank
1.4: Hypertext-Informationssysteme
1.5: Expertensysteme
1.6: Managementinformationssysteme
1.7: Knowledge Discovery / Data Mining
1.8: Ein Data Mining System zur Kategorisierung
Abb. 4: Scoring Table (aus Carter and Catlett 1987)
Abb. 5: Ein kleines Trainingsset (aus
Carter and Catlett, 1987)
Abb. 6: Entscheidungsbaum zum Trainingsset aus
Abb. (nach Carter and
Catlett, 1987)
1.9: Assoziative Regeln und der Warenkorb
1.10: Knowledge Discovery und Information Retrieval
Abb. 7: Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995
2.1: Kommunikationsmodelle
2.1.1: Informationsübertragung
Abb. 8: Grundlegendes Schema der Informationsübertragung
2.1.1.1: Datenübertragung
2.1.1.2: Komplexere Übertragungsbeispiele
2.1.2: Dialoge
Abb. 9: Einfaches Dialogschema
Abb. 10: Grundlegendes Schema eines Informationssystems
2.2: Information Retrieval
2.2.1: Daten, Wissen, Information
2.2.2: Struktur eines Information Retrieval Systems
2.2.2.1: Zum Beispiel: Boolesches Retrieval in Literaturdatenbanken
Abb. 11: Schematische Darstellung eines textbasierten Booleschen Information Retrieval Systems
2.2.3: Information Retrieval: Definition und Abgrenzung
Abb. 12: Abgrenzung von Information Retrieval und Fakten Retrieval (Data Retrieval) nach Van Rijsbergen (1979)
3.1: Boolesches Retrieval
3.1.1: Logik des Booleschen Retrieval
3.1.2: Boolesches Retrieval für Textdokumente
3.1.3: Implementierung mit einer invertierten Liste
3.1.4: Erweiterungen
3.2: Zeichenketten, Wörter und Konzepte
Abb. 13: Trunkierungen, die nicht nur Tiere ausschließen (aus Ferber, Wettler, Rapp 1995)
3.2.1: Wortorientierte Reduktionsverfahren
Abb. 14: Schematische Darstellung der Verwendung von Grundformreduktionsverfahren in einem textbasierten Information Retrieval System
3.2.1.1: Lexikographische Grundformenreduktion nach Kuhlen
Abb. 15: Die verschiedenen
Reduktionsformen nach Kuhlen am Beispiel (aus Kuhlen 1977, S. 58)
Abb. 16: Einige der Regeln zur lexikographischen
Grundformenreduktion nach Kuhlen (1977)
Abb. 17: Anwendungsbeispiel für den Kuhlen Algorithmus
3.2.1.2: Lexikonbasierte Morphologieprogramme
Abb. 18: Die Wortform "Flüssen" in der Flexionsanalyse bei Lezius (1995)
3.3: Klassifikationen und Thesauren
3.3.1: Klassifikationen
3.3.1.1: Klassifikation
Abb. 19: Schematische Darstellung der Verwendung einer Klassifikation in einem Information Retrieval System
3.3.1.2: Internationale Dezimalklassifikation
Abb. 20: Die 10 Hauptabteilungen der internationalen Dezimalklassifikation (nach Manecke, 1997)
Abb. 21: Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation (nach Manecke, 1997)
Abb. 22: Ein Pfad durch die internationale Dezimalklassifikation (nach Manecke 1997)
Abb. 23: Ein Pfad durch die internationale Dezimalklassifikation (nach Fuhr 1995)
Abb. 24: Die Grundkategorien der Toman Facettenklassifikation (nach Manecke 1997)
Abb. 25: Die Facetten der ersten Grundkategorie der Toman Facettenklassifikation (nach Manecke 1997)
3.3.2: Thesauren
Abb. 26: Beispiele von Thesauruseinträgen
Abb. 27: Schematische Darstellung der Nutzung eines Thesaurus in einem Text Retrieval System
3.3.3: Semantische Netze
Abb. 28: Kontextabhängigkeit der Dereferenzierung eines Pronomens
3.4: Das Vektorraummodell
3.4.1: Das Modell
3.4.1.1: Vektorraummodell:
Abb. 29: Schematische Darstellung eines Vektorraum Text Retrieval Systems
3.4.1.2: Vektorraummodell mit Attributen:
3.4.2: Vektorraummodell und Boolesches Retrieval
3.4.2.1: Skalarprodukt:
3.4.3: Gewichtungsmethoden
3.4.3.1: Globale Gewichtungseinflüsse
Abb. 30: Das Zipf'sche Gesetz am Beispiel des Brown- und des LOB-Korpus'
Abb. 31: Schematische Darstellung des Zipf'schen Gesetzes
Abb. 32: Abdeckung eines Texts durch seine Wörter
Abb. 33: Schematische Darstellung der Diskriminationskraft von Termen gegen die Häufigkeit aufgetragen (nach Salton & McGill 1983)
3.4.3.2: Lokale Gewichtungseinflüsse
3.4.4: Relevance Feedback
3.4.5: Ähnlichkeitsfunktionen
3.4.5.1: Das Skalarprodukt
3.4.5.2: Das Cosinusmaß
3.4.5.3: Das Pseudo-Cosinusmaß
3.4.5.4: Das Dice-Maß
3.4.5.5: Das Overlap-Maß
3.4.5.6: Das Jaccard-Maß
3.4.6: Das Retrievalsystem SMART
3.4.6.1: Automatische Indexierung
3.4.6.2: Berechnung von Dokumentclustern und ihrer Zentroide
3.4.6.3: Automatische Queryanalyse und Relevance Feedback Komponente
3.4.6.4: Dynamisierung des Dokumentenraumes
3.5: Bewertung und Vergleich von IR Systemen
3.5.1: Einflussfaktoren
3.5.2: Relevanz
3.5.2.1: Relevanz
3.5.3: Precision und Recall
3.5.3.1: Precision und Recall
3.5.3.2: Precision-Recall-Diagramm
Abb. 34: Beispiel eines Precision Recall Diagramms
3.5.4: Mittelwertbildungen
3.5.5: Testkollektionen
Abb. 35: Testkollektionen (nach Griffiths Luckhurst & Willett 1986 und Dumais, 1991)
3.5.6: Die TREC Experimente
Abb. 36: Beispieldokument aus dem TREC Korpus (nach Voorhees und Harman TREC 6)
Abb. 37: Topics aus verschiedenen TREC Durchgängen (nach Voorhees und Harman TREC 6)
3.5.6.1: Relevanzbestimmung
Abb. 38: Überprüfung der Relevanzbeurteilung bei TREC-2 nach Harman (1995)
Abb. 39: Größe der Grundmenge der auf
Relevanz beurteilten Dokumente nach Harman (1995 - WWW, 1996 - WWW)
Abb. 40: Ergebnisse einzelner Systeme aus TREC 4 mit unterschiedlichen Relevanzbeurteilungen (nach Voorhees und Harman TREC 6)
4.1: Lernen
Abb. 41: Mathematische Logik oder probabilistisches
Schließen. Nach Ferber, Wettler & Rapp (1995)
4.1.1: Lernen als Informationsverarbeitung
Abb. 42: Beispiele für die verschiedenen Arten des Schließens
4.1.2: Automatisches Lernen aus Beispielen
4.1.2.1: Faktendatenbanken
4.2: Kategorisieren
4.2.1: Attribute und Kategorien
4.2.1.1: Kategorisierung
4.2.1.2: Nach einem Attribut kategorisieren
4.2.1.3: Induktiv erzeugter Kategorisierungsalgorithmus:
4.2.2: Trainings- und Testset
Abb. 43: Beispielmenge von Tupeln mit Kategorisierung
4.2.3: Lernenparadigmen
4.2.4: Der ID3 Algorithmus
Abb. 44: Entscheidungsbaum nach dem ID3 Algorithmus
4.2.4.1: Algorithmus im Überblick
4.2.4.1.1: Auswahlkriterium
4.2.4.2: Formale Beschreibung des ID3 Algorithmus
4.2.4.2.1: Algorithmus
4.2.4.2.2: Auswahlkriterium
Abb. 45: Entropiewerte, nach denen die Attribute bei der Konstruktion des ID3 Baums aus den Beispielen aus Abbildung selektiert werden.
4.2.4.3: Kategorisieren mit dem ID3 Algorithmus
4.2.4.3.1: Algorithmus
Abb. 46: Der ID3 Baum, der sich aus den Beispielen aus Abbildung ergibt, mit den Beispielmengen der Knoten
Abb. 47: Der ID3 Baum aus Abbildung ohne Beispielmengen
4.2.5: Konsistenz
4.2.5.1: Konsistenz
4.2.5.2: Aussage:
4.2.6: Endlichkeit des ID3 auf konsistenten Trainingssets
Abb. 48: Maximaler Entscheidungsbaum mit 2 Kategorien
Abb. 49: Entscheidungsbaum mit 2 Kategorien
4.2.7: Wertebereiche der Attribute
4.2.7.1: Nominalskala
4.2.7.2: Ordinalskala
4.2.7.3: Intervallskala
4.2.7.4: Rationale Skala
4.2.8: Bewertung
4.2.8.1: Accuracy und Coverage
4.2.9: Inkonsistente Trainingssets
4.2.10: Unvollständige Beispiele
4.2.11: Größe und Repräsentativität des Trainingssets
4.2.11.1: Fenstertechnik
4.2.12: Inkrementelles Lernen
4.2.13: Overfitting
4.2.14: Nachoptimierung von Bäumen und Algorithmen
4.2.15: Suchstrategien
Abb. 50: Gütefunktion mit lokalen Maxima
4.3: Darstellung als Regeln
4.3.1: Einfache Regelsysteme
Abb. 51: Einige Formeln, die sich aus dem Entscheidungsbaum aus Abbildung ableiten lassen
4.3.1.1: Normalformen
4.3.1.2: Entscheidungslisten
Abb. 52: Konstruktion einer Entscheidungsliste aus den Beispielen aus Abbildung
4.3.1.3: Ripple-down Regelmengen
Abb. 53: Konstruktion eines Ripple-down Sets aus der Entscheidungsliste aus Abbildung
4.3.1.4: Formaler Algorithmus zur Regelbildung aus Beispielen
Abb. 54: Verallgemeinerung einer Bedingung durch Hinzufügen einer elementaren Bedingung zu einer Disjunktion
Abb. 55: Verallgemeinerung von Regeln, die aus einigen Beispielen aus Abbildung gewonnen wurden
4.3.1.5: Top-Down und Bottom-Up Methoden
4.3.2: Der AQ-Algorithmus
4.3.2.1: Selektor, Komplex, Abdeckung
4.3.2.2: Stern
4.3.2.3: Algorithmus AQ15
4.3.2.4: Algorithmus: AQ15 Partieller Stern
Abb. 56: Beispiele aus Abbildung nach Kategorien sortiert
Abb. 57: Konstruktion einer Abdeckung für die ersten zwei Beispiele von
K2
aus Abbildung mit dem AQ15 Algorithmus.
Abb. 58: Fertigstellung der Abdeckung für
K2
aus Abbildung mit dem AQ15 Algorithmus.
4.3.2.5: Generalisierungsoperationen
4.4: Zusammengesetzte Attribute
Abb. 59: Regeln, die auch Vergleiche von Attributen zulassen, auf einer Teilmenge der Beispiele aus Abbildung .
Abb. 60: Beispiele, die sich mit einem zusammengestzten Attribut gut trennen lassen.
4.4.1: Multivariate Entscheidungsbäume
4.4.1.1: Attributauswahl
4.4.1.1.1: Sequentielle Elimination und Auswahl
4.4.1.1.2: Verteilungsbasiertes Eliminationsverfahren
4.4.1.1.3: Das CART Verfahren
4.4.1.2: Koeffizientenbestimmung
4.4.1.3: Evaluierung
4.5: Cluster und unscharfe Mengen
Abb. 61: Teilmengen, die sich in maximal einer Stelle von einem Prototypen unterscheiden, sind nicht disjunkt.
4.5.1: Cluster
4.5.2: Unscharfe Mengen
4.5.2.1: Fuzzy Set
Abb. 62: Unscharfe Mengen als Beschreibung von Lebensaltern
4.5.2.2: Träger, Kern, Schnitte und Höhe
4.5.2.3: Aussage:
Abb. 63: Rekonstruktion des Wertes der Zugehörigkeitsfunktion aus einem
a
- Schnitt.
4.5.2.4: Vereinigung, Durchschnitt und Komplement
Abb. 64: Vereinigung und Durchschnitt von unscharfen Mengen
4.6: Assoziative Regeln
4.6.1: Assoziative Regel (Klemettinen et al 1994)
Abb. 65: Anzahl der Regeln aus zwei Beispielsammlungen
4.6.2: Template
4.6.3: Teilordnung
4.6.4: DBlearn / DBMiner
Abb. 66: Konzepthierarchien aus (Han, Cai & Cercone 1992)
4.6.4.1: Nur Selektoren generalisieren
4.6.4.2: Aufsteigen in Konzepthierarchien
4.6.4.3: Selektoren mit dem maximalen Element der Teilordnung weglassen
4.6.4.4: Gleiche Tupel zusammenfassen
4.6.4.5: Einfachere Form erzwingen
4.6.4.6: Eingabe:
4.6.4.7: Algorithmus
Abb. 67: Regelgenerierung mit DBLearn (nach Han, Cai & Cercone 1992)
4.7: Ein komplexeres Beispiel
4.7.1: Problemstellung
4.7.2: Lösungsansätze
4.7.3: Verfahren
4.7.4: Durchführung und Bewertung
Abb. 68: Vergleich der unterschiedlichen Missbrauchsdetektoren (nach Fawcett und Provost 1997)
5.1: Das Vektorraummodell als Fuzzy Set Ansatz
5.1.1: Verallgemeinerte Boolesche Verfahren
5.1.1.1: Das MMM-Modell
5.1.1.2: Das Paice Modell
5.1.1.3: Das P-Norm Modell
5.2: Der probabilistische Retrieval Ansatz
5.2.1: Wahrscheinlichkeitsrechnung in endlichen Mengen
5.2.1.1: Endlicher Wahrscheinlichkeitsraum
5.2.1.2: Beispiel: Würfel
5.2.1.3: Bedingte Wahrscheinlichkeit und Unabhängigkeit
5.2.2: Abschätzung des Retrievalstatuswerts nach Fuhr
Abb. 69: Beispiele mit Relevanzangaben zur Schätzung des Retrievalstatuswertes zu einer Anfrage
q=t1,...,t6
Abb. 70: Neue Dokumente und ihr Retrievalstatuswert
5.2.3: Die Robertson - Spark Jones Formel
5.3: Logikbasierte Modelle des Information Retrieval
Abb. 71: Modellieren von Wissen durch Regeln
5.3.1: Imaging
Abb. 72: Imaging
Abb. 73: Probleme des Imaging
5.3.2: Bayes'sche Inferenznetze
Abb. 74: Inferenznetz für das Information Retrieval nach Turtle und Croft 1990
5.3.2.1: Die Dokumentenschicht
5.3.2.2: Die Textrepräsentationsschicht
5.3.2.3: Die Konzeptrepräsentationsschicht
Abb. 75: Schema eines Inferrenznetzes mit Regeln und Bildfeaturedetektoren
Abb. 76: Inferenznetz, wie es zur Implementierung von INQUERY verwendt wurde (nach Turtle und Croft 1991)
5.3.3: Abduktive Anfrageoptimierung
Abb. 77: Aus dem Lob - und dem Brown-Korpus mit Kookurrenzdaten berechnete Assoziationen zu drei Termen
6.1: Korpusbasierte Verfahren
6.1.1: Der assoziative Ansatz im IR
6.1.2: Kookurrenzverfahren
6.1.2.1: Ein Machine Learning Ansatz
6.1.2.2: Term-Term-Matrizen
6.1.2.3: Anwendung im IR
6.1.2.4: Häufigkeit der Terme
6.1.2.5: Expansion von Termen oder Anfragen
6.1.2.6: Größe der Dokumentsammlung
6.1.2.7: Eine Untersuchung zur Bestimmung von Suchtermen
Abb. 78: Ergebnisse der Studie zur Simulationen der Wortwahl (Ferber, Wettler & Rapp 1995)
6.1.2.8: Komplexere Kookurrenzverfahren
6.1.3: Anwendung im mehrsprachigen Retrieval
Abb. 79: Ergebnisse der Studie zum mehrsprachigen Retrieval (nach Sheridan und Ballerini, 1996)
6.1.4: Deskriptoren bestimmen
Abb. 80: Datensatz aus der Idis Datenbank
Abb. 81: Mittlere Precision Werte bei einem Recall von 0.75 für unterschiedliche Werte der Parameter x und y.
Abb. 6.1.4: Parameterwerte für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben mit den entsprechenden Ergebnissen für die Testmenge.
6.1.5: Latent Semantic Indexing
6.2: Gewichtungsmethoden Lernen
Abb. 82: Einflussfaktoren von Auftrittsformen nach Fuhr (1995)
6.3: Social Filtering