Data Mining und Information Retrieval

Vorwort

1: Einführung


1.1: Literatursuche
1.2: Beispiel einer Datenbankrecherche

Abb. 1: Dokument aus der Literaturdatenbank PSYNDEX

Abb. 2: Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995


1.3: Faktendatenbanken und -retrieval

Abb. 3: Beispiel-Datenbank


1.4: Hypertext-Informationssysteme
1.5: Expertensysteme
1.6: Managementinformationssysteme
1.7: Knowledge Discovery / Data Mining
1.8: Ein Data Mining System zur Kategorisierung

Abb. 4: Scoring Table (aus Carter and Catlett 1987)

Abb. 5: Ein kleines Trainingsset (aus Carter and Catlett, 1987)

Abb. 6: Entscheidungsbaum zum Trainingsset aus Abb. (nach Carter and Catlett, 1987)


1.9: Assoziative Regeln und der Warenkorb
1.10: Knowledge Discovery und Information Retrieval

Abb. 7: Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995

2: Grundlagen

2.1: Kommunikationsmodelle

2.1.1: Informationsübertragung

Abb. 8: Grundlegendes Schema der Informationsübertragung


2.1.1.1: Datenübertragung
2.1.1.2: Komplexere Übertragungsbeispiele

2.1.2: Dialoge

Abb. 9: Einfaches Dialogschema

Abb. 10: Grundlegendes Schema eines Informationssystems

2.2: Information Retrieval

2.2.1: Daten, Wissen, Information

2.2.2: Struktur eines Information Retrieval Systems


2.2.2.1: Zum Beispiel: Boolesches Retrieval in Literaturdatenbanken

Abb. 11: Schematische Darstellung eines textbasierten Booleschen Information Retrieval Systems

2.2.3: Information Retrieval: Definition und Abgrenzung

Abb. 12: Abgrenzung von Information Retrieval und Fakten Retrieval (Data Retrieval) nach Van Rijsbergen (1979)

3: Klassische Wissensrepräsentations- und Retrievalmodelle

3.1: Boolesches Retrieval

3.1.1: Logik des Booleschen Retrieval

3.1.2: Boolesches Retrieval für Textdokumente

3.1.3: Implementierung mit einer invertierten Liste

3.1.4: Erweiterungen

3.2: Zeichenketten, Wörter und Konzepte

Abb. 13: Trunkierungen, die nicht nur Tiere ausschließen (aus Ferber, Wettler, Rapp 1995)

3.2.1: Wortorientierte Reduktionsverfahren

Abb. 14: Schematische Darstellung der Verwendung von Grundformreduktionsverfahren in einem textbasierten Information Retrieval System


3.2.1.1: Lexikographische Grundformenreduktion nach Kuhlen

Abb. 15: Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel (aus Kuhlen 1977, S. 58)

Abb. 16: Einige der Regeln zur lexikographischen Grundformenreduktion nach Kuhlen (1977)

Abb. 17: Anwendungsbeispiel für den Kuhlen Algorithmus


3.2.1.2: Lexikonbasierte Morphologieprogramme

Abb. 18: Die Wortform "Flüssen" in der Flexionsanalyse bei Lezius (1995)

3.3: Klassifikationen und Thesauren

3.3.1: Klassifikationen

3.3.1.1: Klassifikation

Abb. 19: Schematische Darstellung der Verwendung einer Klassifikation in einem Information Retrieval System


3.3.1.2: Internationale Dezimalklassifikation

Abb. 20: Die 10 Hauptabteilungen der internationalen Dezimalklassifikation (nach Manecke, 1997)

Abb. 21: Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation (nach Manecke, 1997)

Abb. 22: Ein Pfad durch die internationale Dezimalklassifikation (nach Manecke 1997)

Abb. 23: Ein Pfad durch die internationale Dezimalklassifikation (nach Fuhr 1995)

Abb. 24: Die Grundkategorien der Toman Facettenklassifikation (nach Manecke 1997)

Abb. 25: Die Facetten der ersten Grundkategorie der Toman Facettenklassifikation (nach Manecke 1997)

3.3.2: Thesauren

Abb. 26: Beispiele von Thesauruseinträgen

Abb. 27: Schematische Darstellung der Nutzung eines Thesaurus in einem Text Retrieval System

3.3.3: Semantische Netze

Abb. 28: Kontextabhängigkeit der Dereferenzierung eines Pronomens

3.4: Das Vektorraummodell

3.4.1: Das Modell

3.4.1.1: Vektorraummodell:

Abb. 29: Schematische Darstellung eines Vektorraum Text Retrieval Systems

3.4.1.2: Vektorraummodell mit Attributen:

3.4.2: Vektorraummodell und Boolesches Retrieval

3.4.2.1: Skalarprodukt:

3.4.3: Gewichtungsmethoden


3.4.3.1: Globale Gewichtungseinflüsse

Abb. 30: Das Zipf'sche Gesetz am Beispiel des Brown- und des LOB-Korpus'

Abb. 31: Schematische Darstellung des Zipf'schen Gesetzes

Abb. 32: Abdeckung eines Texts durch seine Wörter

Abb. 33: Schematische Darstellung der Diskriminationskraft von Termen gegen die Häufigkeit aufgetragen (nach Salton & McGill 1983)


3.4.3.2: Lokale Gewichtungseinflüsse

3.4.4: Relevance Feedback

3.4.5: Ähnlichkeitsfunktionen


3.4.5.1: Das Skalarprodukt
3.4.5.2: Das Cosinusmaß
3.4.5.3: Das Pseudo-Cosinusmaß
3.4.5.4: Das Dice-Maß
3.4.5.5: Das Overlap-Maß
3.4.5.6: Das Jaccard-Maß

3.4.6: Das Retrievalsystem SMART


3.4.6.1: Automatische Indexierung
3.4.6.2: Berechnung von Dokumentclustern und ihrer Zentroide
3.4.6.3: Automatische Queryanalyse und Relevance Feedback Komponente
3.4.6.4: Dynamisierung des Dokumentenraumes

3.5: Bewertung und Vergleich von IR Systemen

3.5.1: Einflussfaktoren

3.5.2: Relevanz

3.5.2.1: Relevanz

3.5.3: Precision und Recall

3.5.3.1: Precision und Recall

3.5.3.2: Precision-Recall-Diagramm

Abb. 34: Beispiel eines Precision Recall Diagramms

3.5.4: Mittelwertbildungen

3.5.5: Testkollektionen

Abb. 35: Testkollektionen (nach Griffiths Luckhurst & Willett 1986 und Dumais, 1991)

3.5.6: Die TREC Experimente

Abb. 36: Beispieldokument aus dem TREC Korpus (nach Voorhees und Harman TREC 6)

Abb. 37: Topics aus verschiedenen TREC Durchgängen (nach Voorhees und Harman TREC 6)


3.5.6.1: Relevanzbestimmung

Abb. 38: Überprüfung der Relevanzbeurteilung bei TREC-2 nach Harman (1995)

Abb. 39: Größe der Grundmenge der auf Relevanz beurteilten Dokumente nach Harman (1995 - WWW, 1996 - WWW)

Abb. 40: Ergebnisse einzelner Systeme aus TREC 4 mit unterschiedlichen Relevanzbeurteilungen (nach Voorhees und Harman TREC 6)

4: Data Mining

4.1: Lernen

Abb. 41: Mathematische Logik oder probabilistisches Schließen. Nach Ferber, Wettler & Rapp (1995)

4.1.1: Lernen als Informationsverarbeitung

Abb. 42: Beispiele für die verschiedenen Arten des Schließens

4.1.2: Automatisches Lernen aus Beispielen


4.1.2.1: Faktendatenbanken

4.2: Kategorisieren

4.2.1: Attribute und Kategorien

4.2.1.1: Kategorisierung

4.2.1.2: Nach einem Attribut kategorisieren

4.2.1.3: Induktiv erzeugter Kategorisierungsalgorithmus:

4.2.2: Trainings- und Testset

Abb. 43: Beispielmenge von Tupeln mit Kategorisierung

4.2.3: Lernenparadigmen

4.2.4: Der ID3 Algorithmus

Abb. 44: Entscheidungsbaum nach dem ID3 Algorithmus


4.2.4.1: Algorithmus im Überblick
4.2.4.1.1: Auswahlkriterium
4.2.4.2: Formale Beschreibung des ID3 Algorithmus
4.2.4.2.1: Algorithmus
4.2.4.2.2: Auswahlkriterium

Abb. 45: Entropiewerte, nach denen die Attribute bei der Konstruktion des ID3 Baums aus den Beispielen aus Abbildung selektiert werden.


4.2.4.3: Kategorisieren mit dem ID3 Algorithmus
4.2.4.3.1: Algorithmus

Abb. 46: Der ID3 Baum, der sich aus den Beispielen aus Abbildung ergibt, mit den Beispielmengen der Knoten

Abb. 47: Der ID3 Baum aus Abbildung ohne Beispielmengen

4.2.5: Konsistenz


4.2.5.1: Konsistenz
4.2.5.2: Aussage:

4.2.6: Endlichkeit des ID3 auf konsistenten Trainingssets

Abb. 48: Maximaler Entscheidungsbaum mit 2 Kategorien

Abb. 49: Entscheidungsbaum mit 2 Kategorien

4.2.7: Wertebereiche der Attribute


4.2.7.1: Nominalskala
4.2.7.2: Ordinalskala
4.2.7.3: Intervallskala
4.2.7.4: Rationale Skala

4.2.8: Bewertung


4.2.8.1: Accuracy und Coverage

4.2.9: Inkonsistente Trainingssets

4.2.10: Unvollständige Beispiele

4.2.11: Größe und Repräsentativität des Trainingssets


4.2.11.1: Fenstertechnik

4.2.12: Inkrementelles Lernen

4.2.13: Overfitting

4.2.14: Nachoptimierung von Bäumen und Algorithmen

4.2.15: Suchstrategien

Abb. 50: Gütefunktion mit lokalen Maxima

4.3: Darstellung als Regeln

4.3.1: Einfache Regelsysteme

Abb. 51: Einige Formeln, die sich aus dem Entscheidungsbaum aus Abbildung ableiten lassen

4.3.1.1: Normalformen


4.3.1.2: Entscheidungslisten

Abb. 52: Konstruktion einer Entscheidungsliste aus den Beispielen aus Abbildung


4.3.1.3: Ripple-down Regelmengen

Abb. 53: Konstruktion eines Ripple-down Sets aus der Entscheidungsliste aus Abbildung

4.3.1.4: Formaler Algorithmus zur Regelbildung aus Beispielen

Abb. 54: Verallgemeinerung einer Bedingung durch Hinzufügen einer elementaren Bedingung zu einer Disjunktion

Abb. 55: Verallgemeinerung von Regeln, die aus einigen Beispielen aus Abbildung gewonnen wurden


4.3.1.5: Top-Down und Bottom-Up Methoden

4.3.2: Der AQ-Algorithmus

4.3.2.1: Selektor, Komplex, Abdeckung

4.3.2.2: Stern

4.3.2.3: Algorithmus AQ15

4.3.2.4: Algorithmus: AQ15 Partieller Stern

Abb. 56: Beispiele aus Abbildung nach Kategorien sortiert

Abb. 57: Konstruktion einer Abdeckung für die ersten zwei Beispiele von K2 aus Abbildung mit dem AQ15 Algorithmus.

Abb. 58: Fertigstellung der Abdeckung für K2 aus Abbildung mit dem AQ15 Algorithmus.


4.3.2.5: Generalisierungsoperationen

4.4: Zusammengesetzte Attribute

Abb. 59: Regeln, die auch Vergleiche von Attributen zulassen, auf einer Teilmenge der Beispiele aus Abbildung .

Abb. 60: Beispiele, die sich mit einem zusammengestzten Attribut gut trennen lassen.

4.4.1: Multivariate Entscheidungsbäume

4.4.1.1: Attributauswahl


4.4.1.1.1: Sequentielle Elimination und Auswahl
4.4.1.1.2: Verteilungsbasiertes Eliminationsverfahren
4.4.1.1.3: Das CART Verfahren

4.4.1.2: Koeffizientenbestimmung

4.4.1.3: Evaluierung

4.5: Cluster und unscharfe Mengen

Abb. 61: Teilmengen, die sich in maximal einer Stelle von einem Prototypen unterscheiden, sind nicht disjunkt.

4.5.1: Cluster

4.5.2: Unscharfe Mengen

4.5.2.1: Fuzzy Set

Abb. 62: Unscharfe Mengen als Beschreibung von Lebensaltern

4.5.2.2: Träger, Kern, Schnitte und Höhe


4.5.2.3: Aussage:

Abb. 63: Rekonstruktion des Wertes der Zugehörigkeitsfunktion aus einem a - Schnitt.

4.5.2.4: Vereinigung, Durchschnitt und Komplement

Abb. 64: Vereinigung und Durchschnitt von unscharfen Mengen

4.6: Assoziative Regeln

4.6.1: Assoziative Regel (Klemettinen et al 1994)

Abb. 65: Anzahl der Regeln aus zwei Beispielsammlungen

4.6.2: Template

4.6.3: Teilordnung


4.6.4: DBlearn / DBMiner

Abb. 66: Konzepthierarchien aus (Han, Cai & Cercone 1992)


4.6.4.1: Nur Selektoren generalisieren
4.6.4.2: Aufsteigen in Konzepthierarchien
4.6.4.3: Selektoren mit dem maximalen Element der Teilordnung weglassen
4.6.4.4: Gleiche Tupel zusammenfassen
4.6.4.5: Einfachere Form erzwingen
4.6.4.6: Eingabe:
4.6.4.7: Algorithmus

Abb. 67: Regelgenerierung mit DBLearn (nach Han, Cai & Cercone 1992)

4.7: Ein komplexeres Beispiel

4.7.1: Problemstellung

4.7.2: Lösungsansätze

4.7.3: Verfahren

4.7.4: Durchführung und Bewertung

Abb. 68: Vergleich der unterschiedlichen Missbrauchsdetektoren (nach Fawcett und Provost 1997)

5: Neuere IR Ansätze

5.1: Das Vektorraummodell als Fuzzy Set Ansatz

5.1.1: Verallgemeinerte Boolesche Verfahren


5.1.1.1: Das MMM-Modell
5.1.1.2: Das Paice Modell
5.1.1.3: Das P-Norm Modell

5.2: Der probabilistische Retrieval Ansatz

5.2.1: Wahrscheinlichkeitsrechnung in endlichen Mengen

5.2.1.1: Endlicher Wahrscheinlichkeitsraum


5.2.1.2: Beispiel: Würfel

5.2.1.3: Bedingte Wahrscheinlichkeit und Unabhängigkeit

5.2.2: Abschätzung des Retrievalstatuswerts nach Fuhr

Abb. 69: Beispiele mit Relevanzangaben zur Schätzung des Retrievalstatuswertes zu einer Anfrage q=t1,...,t6

Abb. 70: Neue Dokumente und ihr Retrievalstatuswert

5.2.3: Die Robertson - Spark Jones Formel

5.3: Logikbasierte Modelle des Information Retrieval

Abb. 71: Modellieren von Wissen durch Regeln

5.3.1: Imaging

Abb. 72: Imaging

Abb. 73: Probleme des Imaging

5.3.2: Bayes'sche Inferenznetze

Abb. 74: Inferenznetz für das Information Retrieval nach Turtle und Croft 1990


5.3.2.1: Die Dokumentenschicht
5.3.2.2: Die Textrepräsentationsschicht
5.3.2.3: Die Konzeptrepräsentationsschicht

Abb. 75: Schema eines Inferrenznetzes mit Regeln und Bildfeaturedetektoren

Abb. 76: Inferenznetz, wie es zur Implementierung von INQUERY verwendt wurde (nach Turtle und Croft 1991)

5.3.3: Abduktive Anfrageoptimierung

6: Wissensextraktion im Information Retrieval

Abb. 77: Aus dem Lob - und dem Brown-Korpus mit Kookurrenzdaten berechnete Assoziationen zu drei Termen

6.1: Korpusbasierte Verfahren

6.1.1: Der assoziative Ansatz im IR

6.1.2: Kookurrenzverfahren


6.1.2.1: Ein Machine Learning Ansatz
6.1.2.2: Term-Term-Matrizen
6.1.2.3: Anwendung im IR
6.1.2.4: Häufigkeit der Terme
6.1.2.5: Expansion von Termen oder Anfragen
6.1.2.6: Größe der Dokumentsammlung
6.1.2.7: Eine Untersuchung zur Bestimmung von Suchtermen

Abb. 78: Ergebnisse der Studie zur Simulationen der Wortwahl (Ferber, Wettler & Rapp 1995)


6.1.2.8: Komplexere Kookurrenzverfahren

6.1.3: Anwendung im mehrsprachigen Retrieval

Abb. 79: Ergebnisse der Studie zum mehrsprachigen Retrieval (nach Sheridan und Ballerini, 1996)

6.1.4: Deskriptoren bestimmen

Abb. 80: Datensatz aus der Idis Datenbank

Abb. 81: Mittlere Precision Werte bei einem Recall von 0.75 für unterschiedliche Werte der Parameter x und y.

Abb. 6.1.4: Parameterwerte für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben mit den entsprechenden Ergebnissen für die Testmenge.

6.1.5: Latent Semantic Indexing

6.2: Gewichtungsmethoden Lernen

Abb. 82: Einflussfaktoren von Auftrittsformen nach Fuhr (1995)

6.3: Social Filtering