| Einführung in das Webangebot |
| Vorwort zum Buch |
1 | Grundlagen und klassische IR-Methoden |
1.1 | Einführende Beispiele |
1.1.1 | Einführung |
1.1.2 | Literatursuche |
1.1.3 | Recherche in einer Literaturdatenbank |
Abb. 1 | Dokument aus der Literaturdatenbank PSYNDEX |
Abb. 2 | Anzahl der in INSPEC gefundenen Dokumente im ersten Halbjahr 1995 |
1.1.4 | Faktendatenbanken und -retrieval |
Abb. 3 | Beispieldatenbank mit Wohnungsangeboten |
1.1.5 | Hypertext-Informationssysteme |
1.1.6 | Expertensysteme |
1.1.7 | Management-Informationssysteme |
1.1.8 | Data Mining |
1.1.9 | Kategorisierung mit einem Data-Mining-System |
Abb. 4 | Scoring Table |
Abb. 5 | Eine kleine Trainingsmenge |
Abb. 6 | Entscheidungsbaum |
1.1.10 | Assoziative Regeln und der Warenkorb |
1.1.11 | Wissensgewinnung und Information Retrieval |
Abb. 7 | Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995 |
1.2 | Grundlagen |
1.2.1 | Informationsübertragung |
Abb. 8 | Grundlegendes Schema der Informationsübertragung |
1.2.1.1 | Datenübertragung |
1.2.1.2 | Komplexere Übertragungsbeispiele |
1.2.2 | Dialoge |
Abb. 9 | Einfaches Dialogschema |
Abb. 10 | Grundlegendes Schema eines Information-Retrieval-Systems |
1.2.3 | Information Retrieval |
1.2.3.1 | Daten, Wissen, Information |
1.2.3.2 | Struktur eines Information-Retrieval-Systems |
Abb. 11 | Schematische Darstellung eines booleschen Information-Retrieval-Systems für Texte |
1.2.3.3 | Information Retrieval: Definition und Abgrenzung |
Abb. 12 | Abgrenzung von Information Retrieval und Fakten Retrieval
(Data Retrieval) nach Van Rijsbergen (1979) |
1.3 | Klassische Information-Retrieval-Verfahren |
1.3.1 | Boolesches Retrieval |
1.3.1.1 | Logik des booleschen Retrieval |
Def. 1 | Boolesches Retrieval |
1.3.1.2 | Boolesches Retrieval für Textdokumente |
1.3.1.3 | Implementierung mit invertierten Listen |
1.3.1.4 | Erweiterungen |
1.3.2 | Zeichenketten, Wörter und Konzepte |
Abb. 13 | Trunkierungen, die nicht nur
Tiere ausschließen |
1.3.2.1 | Reduktion von Wörtern auf ihre Grundformen |
Abb. 14 | Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System |
1.3.2.2 | Lexikografische Grundformenreduktion nach Kuhlen |
Abb. 15 | Die verschiedenen
Reduktionsformen nach Kuhlen am Beispiel |
Abb. 16 | Einige der Regeln zur lexikografischen
Grundformenreduktion nach Kuhlen |
Abb. 17 | Anwendungsbeispiel des Kuhlen-Algorithmus |
1.3.2.3 | Lexikonbasierte Morphologie-Analyse |
Abb. 18 | Flexionsanalyse nach Lezius |
1.3.2.4 | Auflösen von Mehrdeutigkeiten |
1.3.3 | Klassifikationen |
Def. 2 | Klassifikation |
Abb. 19 | Schematische Darstellung der Verwendung einer
Klassifikation in einem Information-Retrieval-System |
1.3.3.1 | Internationale Dezimalklassifikation |
Abb. 20 | Die 10 Hauptabteilungen der
internationalen Dezimalklassifikation |
Abb. 21 | Die 10 Abteilungen der Hauptabteilung 5 in
der internationalen Dezimalklassifikation |
Abb. 22 | Ein Pfad durch die internationale
Dezimalklassifikation |
Abb. 23 | Ein Pfad durch die internationale Dezimalklassifikation
|
1.3.3.2 | Erweiterte Klassifikationssysteme |
Abb. 24 | Die Grundkategorien der Toman Facettenklassifikation
|
Abb. 25 | Die Facettenwerte der ersten Grundkategorie der
Toman-Facettenklassifikation |
1.3.4 | Thesauren
|
Abb. 26 | Beispiele von Thesauruseinträgen |
Abb. 27 | Schematische Darstellung der Nutzung eines Thesaurus in
einem Text-Retrieval-System |
1.3.5 | Semantische Netze |
Abb. 28 | Dereferenzierung eines Pronomens |
1.3.6 | Das Vektorraummodell |
1.3.6.1 | Das Modell |
Def. 3 | Vektorraummodell |
Abb. 29 | Schematische Darstellung eines
Vektorraum-Text-Retrieval-Systems |
Def. 4 | Vektorraummodell mit Attributen |
1.3.6.2 | Vektorraummodell und boolesches Retrieval |
Def. 5 | Skalarprodukt |
1.3.6.3 | Gewichtungsmethoden |
1.3.6.3.1 | Globale Gewichtungseinflüsse |
Satz 1 | Zipfsches Gesetz |
Abb. 30 | Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus |
Abb. 31 | Schematische Darstellung des zipfschen Gesetzes |
Abb. 32 | Schematische Darstellung der Diskriminationskraft von
Termen, gegen die Häufigkeit aufgetragen |
1.3.6.3.2 | Lokale Gewichtungseinflüsse |
1.3.6.4 | Relevance Feedback |
1.3.6.5 | Ähnlichkeitsfunktionen |
1.3.6.5.1 | Das Skalarprodukt |
Abb. 33 | Kurven gleicher Ähnlichkeit beim Skalarprodukt in der Ebene |
1.3.6.5.2 | Das Cosinus-Maß |
Abb. 34 | Kurven gleicher Ähnlichkeit beim Cosinus-Maß in der Ebene |
1.3.6.5.3 | Das Pseudo-Cosinus-Maß |
Abb. 35 | Kurven gleicher Ähnlichkeit beim Pseudo-Cosinus-Maß in der Ebene |
1.3.6.5.4 | Das Dice-Maß |
Abb. 36 | Kurven gleicher Ähnlichkeit beim Dice-Maß in der Ebene |
1.3.6.5.5 | Das Overlap-Maß |
Abb. 37 | Orte gleicher Ähnlichkeit beim Overlap-Maß in der Ebene |
1.3.6.5.6 | Das Jaccard-Maß |
Abb. 38 | Kurven gleicher Ähnlichkeit beim Jaccard-Maß in der Ebene |
1.3.6.6 | Das Retrieval-System SMART |
Alg. 1 | Single-Pass-Cluster-Verfahren |
1.3.7 | Bewertung und Vergleich von IR-Systemen |
1.3.7.1 | Einflussfaktoren |
1.3.7.2 | Relevanz |
Def. 6 | Relevanz |
1.3.7.3 | Precision und Recall |
Def. 7 | Precision und Recall |
Def. 8 | Precision-Recall-Diagramm |
Abb. 39 | Beispiel einer Ergebnisliste und
der daraus berechneten Folge von Precision-Recall-Paaren |
Abb. 40 | Precision-Recall-Diagramm |
1.3.7.4 | Mittelwertbildungen |
1.3.7.5 | Testkollektionen |
Abb. 41 | Testkollektionen |
1.3.7.6 | Die TREC-Experimente |
Abb. 42 | Beispieldokument aus dem TREC-Korpus |
Abb. 43 | Topics aus den ersten TREC-Durchgängen |
Abb. 44 | Topics aus späteren TREC-Durchgängen |
Abb. 45 | Überprüfung der Relevanzbeurteilung bei TREC-2 |
Abb. 46 | Größe der Grundmenge der auf Relevanz beurteilten Dokumente |
Abb. 47 | Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen |
2 | Wissensgewinnung mit Data-Mining-Methoden |
2.1 | Einleitung |
2.2 | Lernen |
Abb. 48 | Deduktives und probabilistisches Schließen |
2.2.1 | Lernen als Informationsverarbeitung |
Abb. 49 | Beispiele der verschiedenen Schlussfolgerungen |
2.2.2 | Automatisches Lernen aus Beispielen |
2.2.2.1 | Faktendatenbanken |
2.3 | Kategorisieren |
2.3.1 | Attribute und Kategorien |
Def. 9 | Kategorisierung |
Def. 10 | Nach einem Attribut kategorisieren |
Def. 11 | Induktive Kategorisierung |
2.3.2 | Trainings- und Testmenge |
Abb. 50 | Beispielmenge von Tupeln mit Kategorisierung |
2.3.3 | Lernparadigmen |
2.3.4 | Der ID3-Algorithmus |
Abb. 51 | Entscheidungsbaum nach dem ID3-Algorithmus |
Alg. 2 | ID3 im Überblick |
2.3.4.1 | Formale Beschreibung des ID3-Algorithmus |
Alg. 3 | ID3 im Detail |
Abb. 52 | Entropiewerte, nach denen die Attribute bei der Konstruktion
eines ID3 Baums selektiert werden. |
Abb. 53 | ID3-Entscheidungsbaum |
2.3.4.2 | Kategorisieren mit dem ID3-Algorithmus |
Alg. 4 | ID3-Baum anwenden |
2.3.5 | Rahmenbedingungen für Lernalgorithmen |
2.3.5.1 | Konsistenz |
Def. 12 | Konsistenz |
Satz 2 | Kategorisierbarkeit konsistenter Beispielmengen |
2.3.5.2 | Größe von Entscheidungsbäumen |
Abb. 54 | Maximaler Entscheidungsbaum mit zwei Kategorien |
Abb. 55 | Entscheidungsbaum mit zwei Kategorien |
2.3.5.3 | Wertebereiche der Attribute |
2.3.5.4 | Bewertung von Kategorisierungsergebnissen |
Def. 13 | Accuracy und Coverage |
2.3.5.5 | Inkonsistente Trainingsdaten |
2.3.5.6 | Unvollständige Beispiele |
2.3.5.7 | Größe und Repräsentativität der Trainingsmenge |
2.3.5.8 | Inkrementelles Lernen |
2.3.5.9 | Overfitting |
2.3.5.10 | Suchstrategien |
Abb. 56 | Gütefunktion mit lokalen Maxima |
2.3.6 | Einfache Regelsysteme |
Def. 14 | Normalformen |
Abb. 57 | Einige Regeln, die sich aus einem Entscheidungsbaum
ableiten lassen. |
2.3.6.1 | Entscheidungslisten |
Abb. 58 | Konstruktion einer Entscheidungsliste |
2.3.6.2 | Ripple-down-Regelmengen |
Alg. 5 | Formale Regelbildung aus Beispielen |
Abb. 59 | Konstruktion eines Ripple-down Sets |
2.3.6.3 | Top-down- und Bottom-up-Methoden |
2.3.7 | Der AQ-Algorithmus |
Def. 15 | Selektor, Komplex, Abdeckung |
Abb. 60 | Verallgemeinerung von Regeln |
Def. 16 | Stern |
Alg. 6 | AQ15: Regelgenerierung |
Abb. 61 | Beispiele nach Kategorien sortiert |
Alg. 7 | AQ15: Partieller Stern |
Abb. 62 | Konstruktion einer Abdeckung |
2.3.7.1 | Generalisierungsoperationen |
2.3.8 | Regelsysteme mit zusammengesetzten Attributen |
Abb. 63 | Regeln, die auch Vergleiche von Attributen zulassen |
Abb. 64 | Beispiele, die sich mit einem zusammengesetzten Attribut gut trennen lassen |
2.3.9 | Multivariate Entscheidungsbäume |
2.3.9.1 | Attributauswahl |
2.3.9.1.1 | Sequenzielle Elimination und Auswahl |
2.3.9.1.2 | Verteilungsbasiertes Eliminationsverfahren |
2.3.9.1.3 | Das CART-Verfahren |
2.3.9.2 | Koeffizientenbestimmung |
2.3.9.3 | Evaluierung |
2.4 | Cluster und unscharfe Mengen |
2.4.1 | Cluster |
Abb. 65 | Cluster-Bildung mit der Hamming Distance |
2.4.2 | Unscharfe Mengen |
Def. 17 | Unscharfe Menge |
Def. 18 | Träger, Kern, Schnitte und Höhe |
Abb. 66 | Unscharfe Mengen zur Beschreibung von Lebensaltern |
Satz 3 | Festlegung durch Schnitte |
Abb. 67 | Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den
Alpha-Schnitten |
Def. 19 | Vereinigung, Durchschnitt und Komplement |
Abb. 68 | Vereinigung und Durchschnitt von unscharfen Mengen |
2.5 | Assoziative Regeln |
Def. 20 | Assoziative Regel |
2.5.1 | Warenkorbmodell |
Abb. 69 | Anzahl der Regeln aus zwei Beispielsammlungen |
Def. 21 | Template |
Def. 22 | Teilordnung |
2.5.2 | DBLearn/DBMiner |
Abb. 70 | Konzepthierarchien aus DBLearn |
Alg. 8 | DBLearn |
Abb. 71 | Regelgenerierung mit DBLearn |
2.6 | Ein komplexeres Beispiel |
2.6.1 | Problemstellung |
2.6.2 | Lösungsansätze |
2.6.3 | Verfahren |
2.6.4 | Durchführung und Bewertung |
Abb. 72 | Vergleich der unterschiedlichen Missbrauchsdetektoren |
3 | Erweiterte Retrieval-Ansätze |
3.1 | Das Vektorraummodell als Fuzzy-Set-Ansatz: Verallgemeinerte boolesche Verfahren |
3.1.1 | Das MMM-Modell |
3.1.2 | Das Paice-Modell |
3.1.3 | Das P-Norm-Modell |
3.2 | Der probabilistische Retrieval-Ansatz |
3.2.1 | Wahrscheinlichkeiten in endlichen Mengen |
Def. 23 | Endlicher Wahrscheinlichkeitsraum |
3.2.1.1 | Beispiel: Würfel |
Def. 24 | Bedingte Wahrscheinlichkeit, Unabhängigkeit |
3.2.2 | Abschätzung des Retrieval-Status-Werts |
Abb. 73 | Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts
zu einer Anfrage q = (t1,...,t6) |
Abb. 74 | Neue Dokumente und ihr Retrieval-Status-Wert |
3.2.3 | Die Robertson-Sparck-Jones-Formel |
3.3 | Logikbasierte Modelle des Information Retrieval |
Abb. 75 | Modellieren von Wissen durch Regeln |
3.3.1 | Imaging |
Abb. 76 | Imaging |
Abb. 77 | Probleme des Imaging |
3.3.2 | Bayessche Inferenznetze |
Abb. 78 | Inferenznetz für das Information Retrieval nach Turtle und Croft |
Abb. 79 | Inferenznetz, wie es zur Implementierung von INQUERY verwendet wurde (nach Turtle und Croft 1991) |
3.3.3 | Abduktive Anfrageoptimierung |
3.4 | Erfolgreiche TREC-Systeme |
3.4.1 | Die TREC-3-Ergebnisse von SMART |
Abb. 80 | Ergebnisse der SMART-Verfahren in TREC 3 |
Abb. 81 | Vergleich der SMART-Verfahren in TREC 3 mit anderen Verfahren |
3.4.2 | Die TREC-4-Ergebnisse von SMART |
Abb. 82 | Normierung des Einflusses der Dokumentlänge |
Abb. 83 | Vergleich der SMART-Ergebnisse in TREC-4 mit und ohne
Expansion und neuer Normierung |
Abb. 84 | Ergebnisse der SMART-Verfahren in TREC-4 |
Abb. 85 | Vergleich der SMART-Ergebnisse mit anderen TREC-4-Verfahren |
3.4.3 | Ein Spreading-Activation-Modell |
Abb. 86 | Das Netz des PIRCS-Systems |
Abb. 87 | Ergebnisse der PIRCS-Verfahren in TREC-4 |
Abb. 88 | Vergleich der PIRCS-Verfahren mit anderen TREC-4-Systemen |
3.4.4 | INQUERY in TREC-4 |
Abb. 89 | Ergebnisse mit INQUERY in TREC4 |
3.4.5 | Das Okapi-System |
Abb. 90 | Ergebnisse mit Okapi in TREC-4 |
3.4.6 | Spezialaufgaben (TREC Tracks) |
3.5 | Korpusbasierte Verfahren |
Abb. 91 | Mit Kookurrenzdaten berechnete Assoziationen zu drei Termen |
3.5.1 | Der assoziative Ansatz im IR |
3.5.2 | Kookurrenzverfahren |
3.5.2.1 | Ein Machine-Learning-Ansatz |
3.5.2.2 | Term-Term-Matrizen |
3.5.2.3 | Anwendung im IR |
3.5.2.4 | Häufigkeit der Terme |
3.5.2.5 | Expansion von Termen oder Anfragen |
3.5.2.6 | Größe der Dokumentensammlung |
3.5.2.7 | Eine Untersuchung zur Bestimmung von Suchtermen |
Abb. 92 | Ergebnisse der Studie zur Simulation der Wortwahl bei der Datenbankrecherche |
3.5.2.8 | Komplexere Kookurrenzverfahren |
3.5.3 | Anwendung im mehrsprachigen Retrieval |
Abb. 93 | Ergebnisse der Studie zum mehrsprachigen Retrieval |
3.5.4 | Deskriptoren bestimmen |
Abb. 94 | Datensatz aus der Idis Datenbank |
Abb. 95 | Mittlere Precision-Werte für
unterschiedliche Parameterwerte |
Abb. 96 |
Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge |
3.5.5 | Latent Semantic Indexing |
3.5.6 | Gewichtungsmethoden Lernen |
Abb. 97 | Einflussfaktoren von Auftrittsformen nach Fuhr und Buckley |
3.5.7 | Social oder Collaborative Filtering |
4 | Information Retrieval und das Web |
4.1 | Explizit strukturierte Dokumente |
4.1.1 | Standard Generalized Markup Language (SGML) |
4.1.1.1 | SGML-Elemente |
4.1.1.2 | Elementattribute |
4.1.1.3 | SGML-Entities |
4.1.2 | HTML |
4.1.3 | XML |
4.1.3.1 | Verweise: XPointer und XLink |
4.1.3.2 | XML Schema |
4.1.3.3 | XPath, XQuery |
4.1.4 | Suche nach und in XML-Dokumenten |
4.1.4.1 | Anwendungen von XML bei der Suche |
4.1.4.2 | Indexierungsmethoden |
4.1.4.3 | Modelle für die Suche in XML-Dokumenten |
4.1.4.4 | Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten |
4.1.4.5 | Suche bei unterschiedlichen DTDs |
4.2 | Metadaten |
4.2.1 | Dublin-Core-Metadaten |
4.2.2 | Hierarchisch strukturierte Metadaten |
Abb. 98 | Die neun Top-Level-Elemente der LOM-Spezifikation |
Abb. 99 | Ein Zweig der LOM-Spezifikation |
4.2.3 | PICS |
4.2.4 | RDF und das Semantische Web |
4.2.4.1 | Resource Description Framework |
Abb. 100 |
Dublin-Core-Beschreibung eines Artikels mit dem Resource Description Framework (RDF) |
4.2.4.2 | Pläne für ein Semantisches Web |
Abb. 101 | Ein RDF-Graph, mit dem die Eigenschaft eg:author definiert wird |
4.3 | Suche im World Wide Web |
4.3.1 | Das Web als Dokumentensammlung |
4.3.1.1 | Medienarten |
4.3.1.2 | Sprache |
4.3.1.3 | Länge und Granularität |
4.3.1.4 | Dynamik und Alter von Web-Seiten |
4.3.1.5 | Anbieter und ihre Ziele |
4.3.1.6 | Zielgruppen |
4.3.1.7 | Inhalte |
4.3.1.8 | Spamming |
4.3.2 | Suchmechanismen der Web-Protokolle |
4.3.3 | Hierarchische Verzeichnisse oder Web Directories |
4.3.3.1 | Klassifikation des Open Directory Project |
Abb. 102 | Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit
Beispielen der zweiten Hierarchiestufe |
4.3.4 | Web-Suchmaschinen |
4.3.4.1 | Web-Roboter, Crawler oder Spider |
4.3.4.2 | Ranking-Strategien |
4.3.4.3 | Ranking nach externen Daten |
Def. 25 | PageRank |
4.3.4.4 | Metasuchdienste |
4.3.5 | Spezialisierte und verteilte Sammlungen |
4.3.5.1 | Der Z39.50-Standard |
4.3.5.2 | Beispiele verteilter Sammlungen |
4.3.5.3 | Peer-to-Peer-Netze |
4.3.6 | Digitale Bibliotheken |
4.3.6.1 | Inhalte einer digitalen Bibliothek |
4.3.6.2 | Dienste |
4.3.6.3 | Archivierung |
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für
die Inhalte und die Rechte der Online-Version liegen beim Autor
Reginald Ferber, Münster (Westf).
Die Rechte der gedruckten Version
beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder
Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors
Reginald Ferber
bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen
der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen.
Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung
für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten
ergeben.
Diese HTML-Datei wurde am erzeugt.