Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval
Stichwörter dieser Seite	World Wide Web, SGML, XML, Fakten-Retrieval, Information Retrieval, Data Mining, Text Mining, schwach strukturierte Daten, semi structured data
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4: Information Retrieval und das Web

Die Verbreitung und Popularisierung des Internet und insbesondere des World Wide Web hat den Umgang mit Daten und Informationen verändert. Der gewachsene Bedarf, Daten im Web anzubieten, sie zu finden und zu nutzen, verlangt bei der Formatierung von Daten mehr Flexibilität, aber auch eine exaktere Beschreibung. Auch die Inhalte von Dokumenten und Datensätzen müssen genauer beschrieben werden, da Suchverfahren nicht mehr davon ausgehen können, in einer gepflegten und homogenen Sammlung zu suchen. Diesen Bedürfnissen wird durch die Entwicklung von Spezifikationen für Dokumentstrukturen (wie SGML und XML) und Dokumentinhalte (wie die Metadatenformate Dublin Core oder PICS) Rechnung getragen. Um die Möglichkeiten zu nutzen, die diese Entwicklungen für die Suche bieten, müssen entsprechende Suchverfahren entwickelt werden.

Als einer der Unterschiede zwischen Fakten-Retrieval und Information Retrieval war in der Einleitung beschrieben worden, dass Fakten-Retrieval auf stark strukturierten Datensätzen mit wohl definierten (und in der Regel einfachen) Typen arbeitet, während Information Retrieval mit unstrukturierten Daten (in der Regel Texten) umgehen muss. Dieser Unterschied fand sich auch zwischen den Methoden des Data Mining und denen der Wissensextraktion aus Texten (Text Mining) wieder. In letzter Zeit zeigt sich allerdings eine zunehmende Annäherung der beiden Gebiete. Datenbanken versuchen mehr und mehr, auch mit schwach strukturierten Daten (semi structured data) umzugehen, während im IR versucht wird, die Struktur von Texten zu erfassen und für die Suche nutzbar zu machen.

In diesem letzten Teil wird daher zunächst eine kurze Einführung in SGML - die Auszeichnungssprache, auf der sowohl HTML als auch XML beruhen - gegeben, um die grundlegenden Mechanismen vorzustellen. Weiter werden verschiedene Ansätze beschrieben, durch strukturierte Beschreibungen von Dokumenten in Form von Metadaten die Suche zu unterstützen. Schließlich werden in einem Kapitel über die Suche im Web und digitale Bibliotheken Anwendungen der geschilderten Methoden und die Probleme, die sich dabei ergeben, vorgestellt.

4.1: Explizit strukturierte Dokumente

4.2: Metadaten

4.3: Suche im World Wide Web

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval

Dieser Abschnitt und seine Unterabschnitte

Inhalt Stichwörter in der Reihenfolge ihres Auftretens Stichwörter alphabetisch sortiert

4	Information Retrieval und das Web
4.1	Explizit strukturierte Dokumente
4.1.1	Standard Generalized Markup Language (SGML)
4.1.1.1	SGML-Elemente
4.1.1.2	Elementattribute
4.1.1.3	SGML-Entities
4.1.2	HTML
4.1.3	XML
4.1.3.1	Verweise: XPointer und XLink
4.1.3.2	XML Schema
4.1.3.3	XPath, XQuery
4.1.4	Suche nach und in XML-Dokumenten
4.1.4.1	Anwendungen von XML bei der Suche
4.1.4.2	Indexierungsmethoden
4.1.4.3	Modelle für die Suche in XML-Dokumenten
4.1.4.4	Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten
4.1.4.5	Suche bei unterschiedlichen DTDs
4.2	Metadaten
4.2.1	Dublin-Core-Metadaten
4.2.2	Hierarchisch strukturierte Metadaten
Abb. 98	Die neun Top-Level-Elemente der LOM-Spezifikation
Abb. 99	Ein Zweig der LOM-Spezifikation
4.2.3	PICS
4.2.4	RDF und das Semantische Web
4.2.4.1	Resource Description Framework
Abb. 100	Dublin-Core-Beschreibung eines Artikels mit dem Resource Description Framework (RDF)
4.2.4.2	Pläne für ein Semantisches Web
Abb. 101	Ein RDF-Graph, mit dem die Eigenschaft `eg:author` definiert wird
4.3	Suche im World Wide Web
4.3.1	Das Web als Dokumentensammlung
4.3.1.1	Medienarten
4.3.1.2	Sprache
4.3.1.3	Länge und Granularität
4.3.1.4	Dynamik und Alter von Web-Seiten
4.3.1.5	Anbieter und ihre Ziele
4.3.1.6	Zielgruppen
4.3.1.7	Inhalte
4.3.1.8	Spamming
4.3.2	Suchmechanismen der Web-Protokolle
4.3.3	Hierarchische Verzeichnisse oder Web Directories
4.3.3.1	Klassifikation des Open Directory Project
Abb. 102	Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit Beispielen der zweiten Hierarchiestufe
4.3.4	Web-Suchmaschinen
4.3.4.1	Web-Roboter, Crawler oder Spider
4.3.4.2	Ranking-Strategien
4.3.4.3	Ranking nach externen Daten
Def. 25	PageRank
4.3.4.4	Metasuchdienste
4.3.5	Spezialisierte und verteilte Sammlungen
4.3.5.1	Der Z39.50-Standard
4.3.5.2	Beispiele verteilter Sammlungen
4.3.5.3	Peer-to-Peer-Netze
4.3.6	Digitale Bibliotheken
4.3.6.1	Inhalte einer digitalen Bibliothek
4.3.6.2	Dienste
4.3.6.3	Archivierung

World Wide Web, SGML, XML, Fakten-Retrieval, Information Retrieval, Data Mining, Text Mining, schwach strukturierte Daten, semi structured data, Explizit strukturierte Dokumente, Faktendatenbank, Layout, SGML, SGML, Auszeichnungssystem, Auszeichnungssprache, markup language, Elemente, Document Type Definition, DTD, Tag, Attribut, Verbindungszeichen, group connector, minimalization rules, omissable, optional, Inhaltsmodell, content model, occurrence indicator, Inclusion, Exclusion, Attribut, Attribut-Wert-Paar, Link, Text Encoding Initiative, TEI, HTML, Hypertext Markup Language, Auszeichnungssprache, Verweis, Link, A-Element, Anker, A-Tag, Ankertext, Web-Server, Server, Web-Browser, Browser, Head, Body, Stichwort, Frameset, XML, Extended Markup Language, XSL, Extensible Stylesheet Language, Erweiterbarkeit, World Wide Web Consortium, W3C, Link, XPointer, XLink, SGML, W3C, Skalenniveau, Namensraum, namespace, Modularität, Vererbung, XPath, XML Path Language, XSLT, XSL Transformations, XML Query Language, XQL, Fakten-Retrieval, Metadaten, Vektorraummodell, Dokumentvektor, Indexterm, textuelle Indexierung, flat-file indexing, Feldindexierung, field-based indexing, Dokumentvektor, Fakten-Retrieval, IR/DB indexing, Faktendatenbank, Strukturindexierung, structured indexing, Pfadindexierung, path-based indexing, positionsbasierte Indexierung, position-based indexing, invertierte Liste, invertierte Liste, Vektorraummodell, labeled node, SGML, Attribut, sub-tree, Teilbaum, Ast, logisches Dokument, strukturierte Terme, Einbettung, Auftreten eines strukturierten Terms, Stichwort, Dokumentvektor, Termhäufigkeit, Dokumenthäufigkeit, TF-IDF, Bottom-up, Cosinus-Maß, Trainingsmenge, Metadaten, XML, Stichwort, Klassifikation, Metadaten, Document Like Objects, DLO, Dublin Core, Dublin Core Metadata Initiative, DCMI, Stichwort, Abstract, Relation, internationalization, localization, Interoperabilität, unqualified Dublin Core, qualified Dublin Core, Spezialisierung, Refinement, encoding scheme, Refinement, Alternative, Table of Contents, Abstract, Created, Valid, Available, Issued, Modified, Extent, Medium, Relation, Is Version Of, Has Version, Is Replaced By, Replaces, Is Required By, Requires, Is Part Of, Has Part, Is Referenced By, References, Is Format Of, Has Format, Spatial, Temporal, LCSH, MeSH, DDC, LCC, UDC, DCMI Period, W3C-DTF, DCMI Type Vocabulary, IMT, URI, ISO 639-2, RFC 1766, Relation, URI, DCMI Point, ISO 3166, DCMI Box, TGN, DCMI Period, W3C-DTF, Attribut-Wert-Paar, Namensraum, RDF, Document Like Objects, Metadaten, Learning-Object-Metadata, LOM, XML-Binding, IMS - Global Learning Consortium, computergestütztes Lernen, CBT, Computer Based Training, Blattelement, Ordinalskala, Rationalskala, Nominalskala, Ähnlichkeitsfunktion, Transliteration, Synonymmenge, Ähnlichkeitssuche, elementare Anfrage, Nominalskala, Skalenniveau, XML, Faktendatenbank, Metadaten, PICS, Platform for Internet Content Selection, Negativauswahl, Positivauswahl, Selbstbeurteilung, self-rating, Beurteilung durch Dritte, third-party-rating, Provider, Metadaten, W3C, Resource Description Framework, RDF, Ressource, XML, Objekt, resources, URI, Uniform Resource Identifier, Eigenschaften, properties, Aussage, statement, Subjekt, Prädikat, Objekt, Beschreibung, description, Container, Bag, Sequence, Alternative, Attribut-Wert-Paar, Dublin Core, RDF-Graph, Dublin Core, RDF Vocabulary Description Language, RDF Schema, Aussage, RDF-Klassen, Literal, Container, class, Wertebereich, SubClassOf, SubPropertyOf, Spezialisierung, Klassifikation, Semantisches Web, Semantic Web Initiative, W3C, XML, RDF, Aussage, Logikschicht, logic layer, Regel, Berechnungsschicht, proof layer, Bewertungsschicht, trust layer, URI, Link, Regel, XML, World Wide Web, Information Retrieval, Web, Server, Client, HTTP, FTP, File Transfer Protocol, Document Like Objects, Dublin Core, Dokumentformat, Medienart, MIME Type, Link, W3C, Granularität, SGML, expires, E-Commerce, Spamming, Rangfolge, Stichwort, paid placement, Klassifikation, Top-Level-Domain, Server, Indexterm, Metadaten, Attribut-Wert-Paar, Stichwort, Dublin Core, RDF, Web Directories, hierarchisches Verzeichnis, Klassifikation, web site, intellektuelle Indexierung, manuelle Indexierung, Yahoo!, ODP, Open Directory Project, Kategorie, Faktendatenbank, Recall, Vektorraummodell, Dokumentvektor, Rangfolge, Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung, Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor, manuelle Indexierung, Klassifikation, Link, Term-Term-Matrix, Ankertext, Indexterm, Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß, Server, Client, Harvest, Bottom-up, Z39.50, Zugang zu Bibliothekskatalogen, Retrieval-Sitzung, session, Client, Server, zustandslos, stateless, Ergebnismenge, result set, boolesches Retrieval, EXPLAIN-Funktion, Dokumenthäufigkeit, Extended Services, Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol, Server, Peer-to-Peer-Netze, Client, Napster, boolesches Retrieval, Vektorraummodell, Metadaten, Stichwort, XML, RDF, Lebensdauer, time to live, TTL, digitale Bibliothek, Digital Library, CERN, Wissenschaftsbetrieb, Qualitätskontrolle, Archivierung, Dublin Core, Archivierung, Rangfolge, Archivierung, Langzeitarchivierung, Formatmigration

A-Element, A-Tag, Abstract, Abstract, Abstract, Ähnlichkeitsfunktion, Ähnlichkeitssuche, Alternative, Alternative, Anker, Ankertext, Ankertext, Archivierung, Archivierung, Archivierung, Archivierung, arXiv.org e-Print archive, Ast, Attribut, Attribut, Attribut, Attribut-Wert-Paar, Attribut-Wert-Paar, Attribut-Wert-Paar, Attribut-Wert-Paar, Auftreten eines strukturierten Terms, Aussage, Aussage, Aussage, Auszeichnungssprache, Auszeichnungssprache, Auszeichnungssystem, Available, Bag, Berechnungsschicht, Beschreibung, Beurteilung durch Dritte, Bewertungsschicht, Blattelement, Body, boolesches Retrieval, boolesches Retrieval, Bottom-up, Bottom-up, Browser, CBT, CERN, class, Client, Client, Client, Client, Computer Based Training, computergestütztes Lernen, Container, Container, content model, Cosinus-Maß, Cosinus-Maß, Crawler, Created, dangling link, Data Mining, DCMI, DCMI Box, DCMI Period, DCMI Period, DCMI Point, DCMI Type Vocabulary, DDC, description, Dienst, Digital Library, digitale Bibliothek, DLO, Document Type Definition, Document Like Objects, Document Like Objects, Document Like Objects, Dokumentformat, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, DTD, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core Metadata Initiative, E-Commerce, Eigenschaften, Einbettung, elementare Anfrage, Elemente, encoding scheme, Ergebnismenge, Erweiterbarkeit, Exclusion, expires, EXPLAIN-Funktion, Explizit strukturierte Dokumente, Extended Markup Language, Extended Services, Extensible Stylesheet Language, Extent, Fakten-Retrieval, Fakten-Retrieval, Fakten-Retrieval, Faktendatenbank, Faktendatenbank, Faktendatenbank, Faktendatenbank, Feldindexierung, field-based indexing, File Transfer Protocol, flat-file indexing, Formatmigration, Frameset, FTP, FTP, Granularität, graue Literatur, group connector, Harvest, Has Format, Has Part, Has Version, Head, hierarchisches Verzeichnis, HTML, HTTP, Hypertext Markup Language, IMS - Global Learning Consortium, IMT, Inclusion, Indexterm, Indexterm, Indexterm, Information Retrieval, Information Retrieval, Inhaltsmodell, intellektuelle Indexierung, internationalization, Interoperabilität, Interoperabilität, invertierte Liste, invertierte Liste, invertierte Liste, IR/DB indexing, Is Format Of, Is Part Of, Is Referenced By, Is Replaced By, Is Required By, Is Version Of, ISO 3166, ISO 639-2, Issued, Kategorie, Klassifikation, Klassifikation, Klassifikation, Klassifikation, Klassifikation, Klassifikation, labeled node, Langzeitarchivierung, Layout, LCC, LCSH, Learning-Object-Metadata, Lebensdauer, Link, Link, Link, Link, Link, Link, Literal, localization, logic layer, Logikschicht, logisches Dokument, LOM, manuelle Indexierung, manuelle Indexierung, markup language, Medienart, Medium, MeSH, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, MIME Type, minimalization rules, Modified, Modularität, Namensraum, Namensraum, Namensraum, namespace, Napster, NCSTRL, Negativauswahl, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, Nominalskala, Nominalskala, OAI, OAI-Spezifikation, Objekt, Objekt, occurrence indicator, ODP, omissable, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Open Directory Project, optional, Ordinalskala, Ordinalskala, paid placement, path-based indexing, Peer-to-Peer-Netze, Pfadindexierung, PICS, Platform for Internet Content Selection, position-based indexing, positionsbasierte Indexierung, Positivauswahl, Prädikat, Preprint, proof layer, properties, Provider, qualified Dublin Core, Qualitätskontrolle, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Rationalskala, RDF, RDF, RDF, RDF, RDF, RDF Schema, RDF Vocabulary Description Language, RDF-Graph, RDF-Klassen, Recall, References, Refinement, Refinement, Regel, Regel, Relation, Relation, Relation, Replaces, Requires, Resource Description Framework, resources, Ressource, result set, Retrieval-Sitzung, RFC 1766, robots.txt, Santa Fe Convention, schwach strukturierte Daten, Selbstbeurteilung, self-rating, Semantic Web Initiative, Semantisches Web, semi structured data, Sequence, Server, Server, Server, Server, Server, Server, Server, session, SGML, SGML, SGML, SGML, SGML, SGML, Skalenniveau, Skalenniveau, Spamming, Spatial, Spezialisierung, Spezialisierung, Spider, stateless, statement, Stichwort, Stichwort, Stichwort, Stichwort, Stichwort, Stichwort, Stichwort, structured indexing, strukturierte Terme, Strukturindexierung, sub-tree, SubClassOf, Subjekt, SubPropertyOf, Synonymmenge, Table of Contents, Tag, TEI, Teilbaum, Temporal, Term-Term-Matrix, Termhäufigkeit, Termhäufigkeit, Text Encoding Initiative, Text Mining, textuelle Indexierung, TF-IDF, TF-IDF, TGN, third-party-rating, time to live, Top-Level-Domain, Trainingsmenge, Transliteration, trust layer, TTL, UDC, Uniform Resource Identifier, unqualified Dublin Core, URI, URI, URI, URI, Valid, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Verbindungszeichen, Vererbung, Verweis, Vorabdruck, Vorabveröffentlichung, W3C, W3C, W3C, W3C, W3C, W3C-DTF, W3C-DTF, Web, Web Directories, web site, Web-Browser, Web-Roboter, Web-Server, Web-Server, Wertebereich, Wissenschaftsbetrieb, World Wide Web, World Wide Web, World Wide Web Consortium, XLink, XML, XML, XML, XML, XML, XML, XML, XML, XML, XML Path Language, XML Query Language, XML-Binding, XPath, XPointer, XQL, XSL, XSL Transformations, XSLT, Yahoo!, Z39.50, Z39.50, Zugang zu Bibliothekskatalogen, zustandslos

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.