| ||||||||||||
4.1: Explizit strukturierte DokumenteAn verschiedenen Stellen wurde bereits auf die Möglichkeiten hingewiesen, verschiedene Teile eines Textes bei der Indexierung unterschiedlich zu bewerten. Dabei war allerdings im Allgemeinen nicht näher darauf eingegangen worden, wie solche Teile erkannt werden können. In einigen Fällen werden die Teile klar gekennzeichnet, in anderen ist das weniger der Fall. Bei dem Beispiel einer Literaturdatenbank aus Abbildung 1 waren die verschiedenen Felder durch Bezeichner klar zu erkennen. Bei Daten, die aus einer Faktendatenbank stammen, kann man hoffen, dass das Datenbankschema die Semantik der Daten widerspiegelt. Bei gedruckten Texten werden die verschiedenen Textteile häufig durch verschiedenes Layout, also z.B. Groß- oder Fettdruck, Einrückung, Nummerierung oder Abstand, unterschieden. Solche Unterscheidungen sind zwar für Leser oft intuitiv verständlich, können beim maschinellen Zugriff aber nicht interpretiert werden, wenn sie nicht vorher bekannt (und eindeutig) sind. Andererseits zeichnet sich ein gutes Layout gerade bei Dokumenten, die vor allem der Darstellung von Wissen dienen, häufig dadurch aus, dass es die logische Struktur eines längeren Dokuments klar macht; dass also z.B. durch die Darstellung einer Überschrift klar wird, ob es sich dabei um die Überschrift für einen ganzen Teil eines Buchs, eines Kapitels oder eines Unterabschnitts handelt. Diese Strukturierung kann z.B. dadurch unterstützt werden, dass die Überschriften der Teile entsprechend der Struktur nummeriert werden. Viele wissenschaftliche Verlage und Zeitschriften geben sehr präzise Anleitungen für ihre Autoren heraus, wie ein Beitrag zu strukturieren ist. Aber auch wenn ein solches Layout für Menschen klar erscheint, ist es im Allgemeinen schwierig, daraus automatisch (d.h. maschinell) Strukturinformationen für einen Text zu gewinnen. Mit der Verbreitung von Textverarbeitungsprogrammen, mit denen auch Dokumente, die schließlich gedruckt werden sollen, elektronisch erstellt werden, hat sich gezeigt, dass es sehr hilfreich sein kann, beim Schreiben eines Dokuments von einer vorgegebenen logischen Struktur auszugehen. Das Layout des Textes kann dann in einem zweiten Schritt aus dieser logischen Struktur abgeleitet werden. Ein Problem besteht dabei häufig darin, die logische Struktur eines Dokuments für die Schreibenden und Lesenden verfügbar zu machen, auch wenn sie nicht im gedruckten Dokument explizit erscheinen soll (es ist eher unüblich, vor den Titel eines Artikels den Bezeichner TITEL: zu drucken). Aus dieser Einsicht wurde 1986 der ISO-Standard 8 879 "Standard Generalized Markup Language" (SGML) definiert. SGML bildet die Grundlage für HTML, die Auszeichnungssprache des Web, und für XML, einen Auszeichnungsstandard, mit dem Dokumente und Daten strukturiert werden können, um sie im Web anzubieten oder zwischen Systemen auszutauschen. Die Struktur von Dokumenten lässt sich direkt zur Unterstützung der Suche verwenden. Mit XML können aber auch (Metadaten-)Formate definiert werden, um Dokumentinhalte zu beschreiben. Deshalb soll hier eine kurze Einführung in SGML gegeben werden. Sie orientiert sich an der sehr gut lesbaren Einführung von Sperberg-McQueen und Burnard (1998) [->] , aus der auch die Beispiele entnommen sind. 4.1.1: Standard Generalized Markup Language (SGML)4.1.2: HTML4.1.3: XML4.1.4: Suche nach und in XML-Dokumenten | ||||||||||||
| ||||||||||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.