Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente
Stichwörter dieser Seite SGML, Auszeichnungssystem, Auszeichnungssprache, markup language, Elemente, Document Type Definition, DTD, Text Encoding Initiative, TEI
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.1.1: Standard Generalized Markup Language (SGML)

SGML ist ein internationaler Standard, mit dem Texte systemunabhängig und strukturiert repräsentiert werden können. Genauer genommen definiert SGML eine Metasprache, mit der ein Auszeichnungssystem oder eine Auszeichnungssprache (markup language) definiert werden kann. Mit dieser Auszeichnungssprache können Texte nach vorgegebenen Regeln zusammengesetzt werden. Dadurch folgen sie einer vorgegebenen Struktur. SGML zeichnet sich dabei durch drei Eigenschaften aus:

  • Es ist deskriptiv: Dokumente werden dadurch gegliedert, dass sie in Teile (Elemente genannt) zerlegt werden, denen ein vordefinierter Name und damit ein vordefinierter Typ zugewiesen wird.
  • Es arbeitet mit Typdefinitionen, die in einer Document Type Definition (DTD) spezifiziert werden. In der DTD werden Dokumenttypen und damit die zulässigen Namen sowie die Verschachtelung der darin definierten Elemente (Teile) festgelegt. Dokumente, die einer gegebenen DTD genügen, können dann mit einem entsprechenden Parser verarbeitet und (zumindest bis zu einem gewissen Grad) interpretiert werden.
  • Durch einen wohl definierten Ersetzungsmechanismus können SGML-Dokumente einfach an lokale Zeichensätze angepasst werden, ohne dass in den Dokumenten selbst Änderungen vorgenommen werden müssen. Mit dem Datenformat können daher maschinenunabhängige Dokumente geschrieben werden.

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.1.1: SGML-Elemente

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.1.2: Elementattribute

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.1.3: SGML-Entities

SGML-Dokumentdefinitionen können dazu genutzt werden, Texte nach einem gemeinsamen System zu strukturieren und damit den inhaltlichen Zugang zu erleichtern. So gibt es seit ca. 1987 die Text Encoding Initiative (TEI) [->] , ein internationales Projekt, das Richtlinien und Austauschformate für Texte für die sprachwissenschaftliche Forschung ausarbeitet. Von der TEI wurde eine umfangreiche SGML DTD entwickelt. 1994 erschien die erste Ausgabe der Richtlinien für die Auszeichnung, ein zweibändiges Werk mit ca. 1 300 Seiten.

Andere SGML-Einsatzgebiete sind z.B. die Strukturierung von Handbüchern und Bedienungsanleitungen oder die Standardisierung von Austauschformaten für Agenturmeldungen. Aber auch das Format von Einträgen in Literaturdatenbanken oder Metadaten (siehe Kapitel 4.2 ) kann durch DTDs definiert werden.

SGML kann auch genutzt werden, um Dokumente für den Druck zu formatieren. Dabei sollte aber vor allem die logische Struktur dargestellt werden. So wurde z.B. das Skript, auf dem dieses Buch basiert, mit einem SGML-basierten Editor geschrieben. Dieser Editor teilt ein Dokument vom Typ book in drei Elemente auf: front-matter, body und rear-matter. In body steht der eigentliche Text des Skripts. Er wird in Elemente vom Typ part eingeteilt, die wiederum in chapter und weiter in sections unterteilt werden. Zu jedem dieser Elemente gibt es ein Überschriftelement, das am Anfang des Elements stehen kann (aber nicht muss). Aus diesen Überschriftelementen kann automatisch ein Inhaltsverzeichnis zusammengestellt werden. Es kann z.B. im Element front-matter gedruckt werden (dazu muss die SGML-Datei zweimal gelesen werden). Weiter können beliebige Textteile als indexterm gekennzeichnet werden. Aus diesen Textteilen kann ein Stichwortverzeichnis zusammengestellt werden.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.1.1Standard Generalized Markup Language (SGML)
4.1.1.1SGML-Elemente
4.1.1.2Elementattribute
4.1.1.3SGML-Entities
SGML, Auszeichnungssystem, Auszeichnungssprache, markup language, Elemente, Document Type Definition, DTD, Tag, Attribut, Verbindungszeichen, group connector, minimalization rules, omissable, optional, Inhaltsmodell, content model, occurrence indicator, Inclusion, Exclusion, Attribut, Attribut-Wert-Paar, Link, Text Encoding Initiative, TEI Attribut, Attribut, Attribut-Wert-Paar, Auszeichnungssprache, Auszeichnungssystem, content model, Document Type Definition, DTD, Elemente, Exclusion, group connector, Inclusion, Inhaltsmodell, Link, markup language, minimalization rules, occurrence indicator, omissable, optional, SGML, Tag, TEI, Text Encoding Initiative, Verbindungszeichen

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.