Explizit strukturierte Dokumente [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Information Retrieval und das Web
Stichwörter dieser Seite	Explizit strukturierte Dokumente, Faktendatenbank, Layout, SGML
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4.1: Explizit strukturierte Dokumente

An verschiedenen Stellen wurde bereits auf die Möglichkeiten hingewiesen, verschiedene Teile eines Textes bei der Indexierung unterschiedlich zu bewerten. Dabei war allerdings im Allgemeinen nicht näher darauf eingegangen worden, wie solche Teile erkannt werden können.

In einigen Fällen werden die Teile klar gekennzeichnet, in anderen ist das weniger der Fall. Bei dem Beispiel einer Literaturdatenbank aus Abbildung 1 waren die verschiedenen Felder durch Bezeichner klar zu erkennen. Bei Daten, die aus einer Faktendatenbank stammen, kann man hoffen, dass das Datenbankschema die Semantik der Daten widerspiegelt.

Bei gedruckten Texten werden die verschiedenen Textteile häufig durch verschiedenes Layout, also z.B. Groß- oder Fettdruck, Einrückung, Nummerierung oder Abstand, unterschieden. Solche Unterscheidungen sind zwar für Leser oft intuitiv verständlich, können beim maschinellen Zugriff aber nicht interpretiert werden, wenn sie nicht vorher bekannt (und eindeutig) sind.

Andererseits zeichnet sich ein gutes Layout gerade bei Dokumenten, die vor allem der Darstellung von Wissen dienen, häufig dadurch aus, dass es die logische Struktur eines längeren Dokuments klar macht; dass also z.B. durch die Darstellung einer Überschrift klar wird, ob es sich dabei um die Überschrift für einen ganzen Teil eines Buchs, eines Kapitels oder eines Unterabschnitts handelt. Diese Strukturierung kann z.B. dadurch unterstützt werden, dass die Überschriften der Teile entsprechend der Struktur nummeriert werden. Viele wissenschaftliche Verlage und Zeitschriften geben sehr präzise Anleitungen für ihre Autoren heraus, wie ein Beitrag zu strukturieren ist. Aber auch wenn ein solches Layout für Menschen klar erscheint, ist es im Allgemeinen schwierig, daraus automatisch (d.h. maschinell) Strukturinformationen für einen Text zu gewinnen.

Mit der Verbreitung von Textverarbeitungsprogrammen, mit denen auch Dokumente, die schließlich gedruckt werden sollen, elektronisch erstellt werden, hat sich gezeigt, dass es sehr hilfreich sein kann, beim Schreiben eines Dokuments von einer vorgegebenen logischen Struktur auszugehen. Das Layout des Textes kann dann in einem zweiten Schritt aus dieser logischen Struktur abgeleitet werden. Ein Problem besteht dabei häufig darin, die logische Struktur eines Dokuments für die Schreibenden und Lesenden verfügbar zu machen, auch wenn sie nicht im gedruckten Dokument explizit erscheinen soll (es ist eher unüblich, vor den Titel eines Artikels den Bezeichner TITEL: zu drucken).

Aus dieser Einsicht wurde 1986 der ISO-Standard 8 879 "Standard Generalized Markup Language" (SGML) definiert. SGML bildet die Grundlage für HTML, die Auszeichnungssprache des Web, und für XML, einen Auszeichnungsstandard, mit dem Dokumente und Daten strukturiert werden können, um sie im Web anzubieten oder zwischen Systemen auszutauschen. Die Struktur von Dokumenten lässt sich direkt zur Unterstützung der Suche verwenden. Mit XML können aber auch (Metadaten-)Formate definiert werden, um Dokumentinhalte zu beschreiben.

Deshalb soll hier eine kurze Einführung in SGML gegeben werden. Sie orientiert sich an der sehr gut lesbaren Einführung von Sperberg-McQueen und Burnard (1998) [->] , aus der auch die Beispiele entnommen sind.

4.1.1: Standard Generalized Markup Language (SGML)

4.1.2: HTML

4.1.3: XML

4.1.4: Suche nach und in XML-Dokumenten

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Information Retrieval und das Web

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

4.1	Explizit strukturierte Dokumente
4.1.1	Standard Generalized Markup Language (SGML)
4.1.1.1	SGML-Elemente
4.1.1.2	Elementattribute
4.1.1.3	SGML-Entities
4.1.2	HTML
4.1.3	XML
4.1.3.1	Verweise: XPointer und XLink
4.1.3.2	XML Schema
4.1.3.3	XPath, XQuery
4.1.4	Suche nach und in XML-Dokumenten
4.1.4.1	Anwendungen von XML bei der Suche
4.1.4.2	Indexierungsmethoden
4.1.4.3	Modelle für die Suche in XML-Dokumenten
4.1.4.4	Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten
4.1.4.5	Suche bei unterschiedlichen DTDs

Explizit strukturierte Dokumente, Faktendatenbank, Layout, SGML, SGML, Auszeichnungssystem, Auszeichnungssprache, markup language, Elemente, Document Type Definition, DTD, Tag, Attribut, Verbindungszeichen, group connector, minimalization rules, omissable, optional, Inhaltsmodell, content model, occurrence indicator, Inclusion, Exclusion, Attribut, Attribut-Wert-Paar, Link, Text Encoding Initiative, TEI, HTML, Hypertext Markup Language, Auszeichnungssprache, Verweis, Link, A-Element, Anker, A-Tag, Ankertext, Web-Server, Server, Web-Browser, Browser, Head, Body, Stichwort, Frameset, XML, Extended Markup Language, XSL, Extensible Stylesheet Language, Erweiterbarkeit, World Wide Web Consortium, W3C, Link, XPointer, XLink, SGML, W3C, Skalenniveau, Namensraum, namespace, Modularität, Vererbung, XPath, XML Path Language, XSLT, XSL Transformations, XML Query Language, XQL, Fakten-Retrieval, Metadaten, Vektorraummodell, Dokumentvektor, Indexterm, textuelle Indexierung, flat-file indexing, Feldindexierung, field-based indexing, Dokumentvektor, Fakten-Retrieval, IR/DB indexing, Faktendatenbank, Strukturindexierung, structured indexing, Pfadindexierung, path-based indexing, positionsbasierte Indexierung, position-based indexing, invertierte Liste, invertierte Liste, Vektorraummodell, labeled node, SGML, Attribut, sub-tree, Teilbaum, Ast, logisches Dokument, strukturierte Terme, Einbettung, Auftreten eines strukturierten Terms, Stichwort, Dokumentvektor, Termhäufigkeit, Dokumenthäufigkeit, TF-IDF, Bottom-up, Cosinus-Maß, Trainingsmenge

A-Element, A-Tag, Anker, Ankertext, Ast, Attribut, Attribut, Attribut, Attribut-Wert-Paar, Auftreten eines strukturierten Terms, Auszeichnungssprache, Auszeichnungssprache, Auszeichnungssystem, Body, Bottom-up, Browser, content model, Cosinus-Maß, Document Type Definition, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, DTD, Einbettung, Elemente, Erweiterbarkeit, Exclusion, Explizit strukturierte Dokumente, Extended Markup Language, Extensible Stylesheet Language, Fakten-Retrieval, Fakten-Retrieval, Faktendatenbank, Faktendatenbank, Feldindexierung, field-based indexing, flat-file indexing, Frameset, group connector, Head, HTML, Hypertext Markup Language, Inclusion, Indexterm, Inhaltsmodell, invertierte Liste, invertierte Liste, IR/DB indexing, labeled node, Layout, Link, Link, Link, logisches Dokument, markup language, Metadaten, minimalization rules, Modularität, Namensraum, namespace, occurrence indicator, omissable, optional, path-based indexing, Pfadindexierung, position-based indexing, positionsbasierte Indexierung, Server, SGML, SGML, SGML, SGML, Skalenniveau, Stichwort, Stichwort, structured indexing, strukturierte Terme, Strukturindexierung, sub-tree, Tag, TEI, Teilbaum, Termhäufigkeit, Text Encoding Initiative, textuelle Indexierung, TF-IDF, Trainingsmenge, Vektorraummodell, Vektorraummodell, Verbindungszeichen, Vererbung, Verweis, W3C, W3C, Web-Browser, Web-Server, World Wide Web Consortium, XLink, XML, XML Path Language, XML Query Language, XPath, XPointer, XQL, XSL, XSL Transformations, XSLT

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.