R. Ferber: Informationssysteme 1.5.6

4.6: Strukturinformationen

An verschiedenen Stellen wurde bereits auf die Möglichkeiten hingewiesen, verschiedene Teile eines Textes bei der Indexierung unterschiedlich zu bewerten. Dabei war allerdings im Allgemeinen nicht näher darauf eingegangen worden, wie solche Teile erkannt werden können.

In einigen Fällen werden die Teile klar gekennzeichnet, in anderen ist das weniger der Fall. Bei dem Beispiel einer Literaturdatenbank aus Abbildung _1.2_ waren die verschiedenen Felder durch Bezeichner klar zu erkennen. Bei Daten, die aus einer Faktendatenbank stammen, kann man hoffen, dass die Semantik der Daten im Schema der Datenbank widergespiegelt wird.

Bei gedruckten Texten werden die verschiedenen Textteile häufig durch verschiedenes Layout, also z. B. Groß - oder Fettdruck, Einrückung, Nummerierung oder Abstand unterschieden. Solche Unterscheidungen sind zwar für Leser oft intuitiv verständlich, können beim maschinellen Zugriff aber nicht interpretiert werden, wenn sie nicht vorher bekannt (und eindeutig) sind.

Andererseits zeichnet sich ein gutes Layout gerade bei Dokumenten, die vor allem der Darstellung von Wissen dienen, häufig dadurch aus, dass es die logische Struktur eines längeren Dokuments klar widerspiegelt; dass also z. B. durch die Darstellung einer Überschriften klar wird, ob es sich dabei um die Überschrift für einen ganzen Teil eines Buches, eines Kapitels oder eines Unterabschnitts handelt. Diese Strukturierung kann z. B. dadurch unterstützt werden, dass die Überschriften der Teile entsprechend der Strukltur nummeriert werden. Viele wissenschaftliche Verlage und Zeitschriften geben sehr präzise Anleitungen für ihre Autoren heraus, wie ein Beitrag zu strukturieren ist. Aber auch wenn ein solches Layout für Menschen klar erscheint, ist es im Allgemeinen schwierig daraus automatisch (d. h. maschinell) Strukturinformationen für einen Text zu gewinnen.

Mit der Verbreitung von Textverarbeitungsprogrammen, mit denen auch Dokumente, die schließlich gedruckt werden sollen elektronisch erstellt werden, hat sich gezeigt, dass es sehr hilfreich sein kann, beim Schreiben eines Dokuments von einer vorgegebenen logischen Struktur auszugehen. Das Layout des Textes kann dann in einem zweiten Schrittt aus dieser logischen Struktur abgeleitet werden. Ein Problem besteht dabei häufig darin, die die logische Struktur eines Dokuments für die Schreibenden und Lesenden verfügbar zu machen, auch wenn sie nicht im gedruckten Dokument explizit erscheinen soll (es ist eher unüblich vor den Titel eines Artikels den Bezeichner TITEL: zu drucken).

Aus dieser Einsicht wurde 1986 der ISO Standard 8879 "Standard Generalized Markup Language" (SGML) definiert. Eine Einführung in SGML, an der sich auch die folgenden Abschnitte orientieren, findet sich bei Sperberg-McQueen und Burnard (TEI [->]).

4.6: Strukturinformationen

4.6.1: Standard Generalized Markup Language (SGML)

4.6.2: HTML und XML