4: Information Retrieval und das Web
Die Verbreitung und Popularisierung des Internet und insbesondere des World Wide Web
hat den Umgang mit Daten und Informationen verändert. Der gewachsene Bedarf, Daten im
Web anzubieten,
sie zu finden und zu nutzen, verlangt bei der Formatierung von Daten mehr Flexibilität, aber
auch eine exaktere Beschreibung. Auch die Inhalte von Dokumenten und Datensätzen müssen
genauer beschrieben werden, da Suchverfahren nicht mehr davon ausgehen können, in einer
gepflegten und homogenen Sammlung zu suchen. Diesen Bedürfnissen wird durch die
Entwicklung von Spezifikationen für Dokumentstrukturen (wie SGML und XML) und
Dokumentinhalte (wie die Metadatenformate Dublin Core oder PICS) Rechnung getragen.
Um die Möglichkeiten zu nutzen, die diese
Entwicklungen für die Suche bieten, müssen entsprechende Suchverfahren
entwickelt werden.
Als einer der Unterschiede zwischen Fakten-Retrieval und
Information Retrieval war in der Einleitung beschrieben worden, dass Fakten-Retrieval
auf stark strukturierten Datensätzen mit wohl definierten (und in
der Regel einfachen) Typen arbeitet, während Information Retrieval mit
unstrukturierten Daten (in der Regel Texten) umgehen muss. Dieser
Unterschied fand sich auch zwischen den Methoden des Data Mining und
denen der Wissensextraktion aus Texten (Text Mining) wieder. In letzter
Zeit zeigt sich allerdings eine zunehmende Annäherung der beiden
Gebiete. Datenbanken versuchen mehr und mehr, auch mit schwach
strukturierten Daten
(semi structured data)
umzugehen, während im IR versucht wird, die Struktur von Texten
zu erfassen und für die Suche nutzbar zu machen.
In diesem letzten Teil wird daher zunächst eine kurze Einführung
in SGML - die Auszeichnungssprache, auf der sowohl HTML als auch XML beruhen - gegeben,
um die grundlegenden Mechanismen vorzustellen. Weiter werden verschiedene Ansätze beschrieben,
durch strukturierte Beschreibungen von Dokumenten in Form von Metadaten die Suche
zu unterstützen. Schließlich werden in einem Kapitel über die
Suche im Web und digitale Bibliotheken Anwendungen der geschilderten Methoden und die
Probleme, die sich dabei ergeben, vorgestellt.
|
Dieser Abschnitt und seine Unterabschnitte |
Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
World Wide Web, SGML, XML, Fakten-Retrieval, Information Retrieval, Data Mining, Text Mining, schwach strukturierte
Daten, semi structured data, Explizit strukturierte Dokumente, Faktendatenbank, Layout, SGML, SGML, Auszeichnungssystem, Auszeichnungssprache, markup language, Elemente, Document
Type Definition, DTD, Tag, Attribut, Verbindungszeichen, group connector, minimalization
rules, omissable, optional, Inhaltsmodell, content model, occurrence indicator, Inclusion, Exclusion, Attribut, Attribut-Wert-Paar, Link, Text Encoding Initiative, TEI, HTML, Hypertext Markup Language, Auszeichnungssprache, Verweis, Link, A-Element, Anker, A-Tag, Ankertext, Web-Server, Server, Web-Browser, Browser, Head, Body, Stichwort, Frameset, XML, Extended Markup Language, XSL, Extensible Stylesheet Language, Erweiterbarkeit, World Wide Web Consortium, W3C, Link, XPointer, XLink, SGML, W3C, Skalenniveau, Namensraum, namespace, Modularität, Vererbung, XPath, XML Path Language, XSLT, XSL Transformations, XML Query Language, XQL, Fakten-Retrieval, Metadaten, Vektorraummodell, Dokumentvektor, Indexterm, textuelle Indexierung, flat-file indexing, Feldindexierung, field-based indexing, Dokumentvektor, Fakten-Retrieval, IR/DB indexing, Faktendatenbank, Strukturindexierung, structured indexing, Pfadindexierung, path-based indexing, positionsbasierte Indexierung, position-based indexing, invertierte Liste, invertierte Liste, Vektorraummodell, labeled node, SGML, Attribut, sub-tree, Teilbaum, Ast, logisches Dokument, strukturierte Terme, Einbettung, Auftreten eines strukturierten Terms, Stichwort, Dokumentvektor, Termhäufigkeit, Dokumenthäufigkeit, TF-IDF, Bottom-up, Cosinus-Maß, Trainingsmenge, Metadaten, XML, Stichwort, Klassifikation, Metadaten, Document Like Objects, DLO, Dublin Core, Dublin Core Metadata Initiative, DCMI, Stichwort, Abstract, Relation, internationalization, localization, Interoperabilität, unqualified Dublin Core, qualified Dublin Core, Spezialisierung, Refinement, encoding scheme, Refinement, Alternative, Table of Contents, Abstract, Created, Valid, Available, Issued, Modified, Extent, Medium, Relation, Is Version Of, Has Version, Is Replaced By, Replaces, Is Required By, Requires, Is Part Of, Has Part, Is Referenced By, References, Is Format Of, Has Format, Spatial, Temporal, LCSH, MeSH, DDC, LCC, UDC, DCMI Period, W3C-DTF, DCMI Type Vocabulary, IMT, URI, ISO 639-2, RFC 1766, Relation, URI, DCMI Point, ISO 3166, DCMI Box, TGN, DCMI Period, W3C-DTF, Attribut-Wert-Paar, Namensraum, RDF, Document Like Objects, Metadaten, Learning-Object-Metadata, LOM, XML-Binding, IMS - Global Learning Consortium, computergestütztes Lernen, CBT, Computer Based Training, Blattelement, Ordinalskala, Rationalskala, Nominalskala, Ähnlichkeitsfunktion, Transliteration, Synonymmenge, Ähnlichkeitssuche, elementare Anfrage, Nominalskala, Skalenniveau, XML, Faktendatenbank, Metadaten, PICS, Platform for Internet Content Selection, Negativauswahl, Positivauswahl, Selbstbeurteilung, self-rating, Beurteilung durch Dritte, third-party-rating, Provider, Metadaten, W3C, Resource Description Framework, RDF, Ressource, XML, Objekt, resources, URI, Uniform Resource Identifier, Eigenschaften, properties, Aussage, statement, Subjekt, Prädikat, Objekt, Beschreibung, description, Container, Bag, Sequence, Alternative, Attribut-Wert-Paar, Dublin Core, RDF-Graph, Dublin Core, RDF Vocabulary Description Language, RDF Schema, Aussage, RDF-Klassen, Literal, Container, class, Wertebereich, SubClassOf, SubPropertyOf, Spezialisierung, Klassifikation, Semantisches Web, Semantic Web Initiative, W3C, XML, RDF, Aussage, Logikschicht, logic layer, Regel, Berechnungsschicht, proof layer, Bewertungsschicht, trust layer, URI, Link, Regel, XML, World Wide Web, Information Retrieval, Web, Server, Client, HTTP, FTP, File Transfer Protocol, Document Like Objects, Dublin Core, Dokumentformat, Medienart, MIME Type, Link, W3C, Granularität, SGML, expires, E-Commerce, Spamming, Rangfolge, Stichwort, paid placement, Klassifikation, Top-Level-Domain, Server, Indexterm, Metadaten, Attribut-Wert-Paar, Stichwort, Dublin Core, RDF, Web Directories, hierarchisches Verzeichnis, Klassifikation, web site, intellektuelle Indexierung, manuelle Indexierung, Yahoo!, ODP, Open Directory Project, Kategorie, Faktendatenbank, Recall, Vektorraummodell, Dokumentvektor, Rangfolge, Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung, Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor, manuelle Indexierung, Klassifikation, Link, Term-Term-Matrix, Ankertext, Indexterm, Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß, Server, Client, Harvest, Bottom-up, Z39.50, Zugang zu Bibliothekskatalogen, Retrieval-Sitzung, session, Client, Server, zustandslos, stateless, Ergebnismenge, result set, boolesches Retrieval, EXPLAIN-Funktion, Dokumenthäufigkeit, Extended Services, Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol, Server, Peer-to-Peer-Netze, Client, Napster, boolesches Retrieval, Vektorraummodell, Metadaten, Stichwort, XML, RDF, Lebensdauer, time to live, TTL, digitale Bibliothek, Digital Library, CERN, Wissenschaftsbetrieb, Qualitätskontrolle, Archivierung, Dublin Core, Archivierung, Rangfolge, Archivierung, Langzeitarchivierung, Formatmigration |
A-Element, A-Tag, Abstract, Abstract, Abstract, Ähnlichkeitsfunktion, Ähnlichkeitssuche, Alternative, Alternative, Anker, Ankertext, Ankertext, Archivierung, Archivierung, Archivierung, Archivierung, arXiv.org e-Print archive, Ast, Attribut, Attribut, Attribut, Attribut-Wert-Paar, Attribut-Wert-Paar, Attribut-Wert-Paar, Attribut-Wert-Paar, Auftreten eines strukturierten Terms, Aussage, Aussage, Aussage, Auszeichnungssprache, Auszeichnungssprache, Auszeichnungssystem, Available, Bag, Berechnungsschicht, Beschreibung, Beurteilung durch Dritte, Bewertungsschicht, Blattelement, Body, boolesches Retrieval, boolesches Retrieval, Bottom-up, Bottom-up, Browser, CBT, CERN, class, Client, Client, Client, Client, Computer Based Training, computergestütztes Lernen, Container, Container, content model, Cosinus-Maß, Cosinus-Maß, Crawler, Created, dangling link, Data Mining, DCMI, DCMI Box, DCMI Period, DCMI Period, DCMI Point, DCMI Type Vocabulary, DDC, description, Dienst, Digital Library, digitale Bibliothek, DLO, Document
Type Definition, Document Like Objects, Document Like Objects, Document Like Objects, Dokumentformat, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, Dokumentvektor, DTD, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core, Dublin Core Metadata Initiative, E-Commerce, Eigenschaften, Einbettung, elementare Anfrage, Elemente, encoding scheme, Ergebnismenge, Erweiterbarkeit, Exclusion, expires, EXPLAIN-Funktion, Explizit strukturierte Dokumente, Extended Markup Language, Extended Services, Extensible Stylesheet Language, Extent, Fakten-Retrieval, Fakten-Retrieval, Fakten-Retrieval, Faktendatenbank, Faktendatenbank, Faktendatenbank, Faktendatenbank, Feldindexierung, field-based indexing, File Transfer Protocol, flat-file indexing, Formatmigration, Frameset, FTP, FTP, Granularität, graue Literatur, group connector, Harvest, Has Format, Has Part, Has Version, Head, hierarchisches Verzeichnis, HTML, HTTP, Hypertext Markup Language, IMS - Global Learning Consortium, IMT, Inclusion, Indexterm, Indexterm, Indexterm, Information Retrieval, Information Retrieval, Inhaltsmodell, intellektuelle Indexierung, internationalization, Interoperabilität, Interoperabilität, invertierte Liste, invertierte Liste, invertierte Liste, IR/DB indexing, Is Format Of, Is Part Of, Is Referenced By, Is Replaced By, Is Required By, Is Version Of, ISO 3166, ISO 639-2, Issued, Kategorie, Klassifikation, Klassifikation, Klassifikation, Klassifikation, Klassifikation, Klassifikation, labeled node, Langzeitarchivierung, Layout, LCC, LCSH, Learning-Object-Metadata, Lebensdauer, Link, Link, Link, Link, Link, Link, Literal, localization, logic layer, Logikschicht, logisches Dokument, LOM, manuelle Indexierung, manuelle Indexierung, markup language, Medienart, Medium, MeSH, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, Metadaten, MIME Type, minimalization
rules, Modified, Modularität, Namensraum, Namensraum, Namensraum, namespace, Napster, NCSTRL, Negativauswahl, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, Nominalskala, Nominalskala, OAI, OAI-Spezifikation, Objekt, Objekt, occurrence indicator, ODP, omissable, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Open Directory Project, optional, Ordinalskala, Ordinalskala, paid placement, path-based indexing, Peer-to-Peer-Netze, Pfadindexierung, PICS, Platform for Internet Content Selection, position-based indexing, positionsbasierte Indexierung, Positivauswahl, Prädikat, Preprint, proof layer, properties, Provider, qualified Dublin Core, Qualitätskontrolle, Rangfolge, Rangfolge, Rangfolge, Rangfolge, Rationalskala, RDF, RDF, RDF, RDF, RDF, RDF Schema, RDF Vocabulary Description Language, RDF-Graph, RDF-Klassen, Recall, References, Refinement, Refinement, Regel, Regel, Relation, Relation, Relation, Replaces, Requires, Resource Description Framework, resources, Ressource, result set, Retrieval-Sitzung, RFC 1766, robots.txt, Santa Fe Convention, schwach strukturierte
Daten, Selbstbeurteilung, self-rating, Semantic Web Initiative, Semantisches Web, semi structured data, Sequence, Server, Server, Server, Server, Server, Server, Server, session, SGML, SGML, SGML, SGML, SGML, SGML, Skalenniveau, Skalenniveau, Spamming, Spatial, Spezialisierung, Spezialisierung, Spider, stateless, statement, Stichwort, Stichwort, Stichwort, Stichwort, Stichwort, Stichwort, Stichwort, structured indexing, strukturierte Terme, Strukturindexierung, sub-tree, SubClassOf, Subjekt, SubPropertyOf, Synonymmenge, Table of Contents, Tag, TEI, Teilbaum, Temporal, Term-Term-Matrix, Termhäufigkeit, Termhäufigkeit, Text Encoding Initiative, Text Mining, textuelle Indexierung, TF-IDF, TF-IDF, TGN, third-party-rating, time to live, Top-Level-Domain, Trainingsmenge, Transliteration, trust layer, TTL, UDC, Uniform Resource Identifier, unqualified Dublin Core, URI, URI, URI, URI, Valid, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Verbindungszeichen, Vererbung, Verweis, Vorabdruck, Vorabveröffentlichung, W3C, W3C, W3C, W3C, W3C, W3C-DTF, W3C-DTF, Web, Web Directories, web site, Web-Browser, Web-Roboter, Web-Server, Web-Server, Wertebereich, Wissenschaftsbetrieb, World Wide Web, World Wide Web, World Wide Web Consortium, XLink, XML, XML, XML, XML, XML, XML, XML, XML, XML, XML Path Language, XML Query Language, XML-Binding, XPath, XPointer, XQL, XSL, XSL Transformations, XSLT, Yahoo!, Z39.50, Z39.50, Zugang zu Bibliothekskatalogen, zustandslos |
|