Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente
Stichwörter dieser Seite HTML, Hypertext Markup Language, Auszeichnungssprache, Verweis, Link, A-Element, Anker, A-Tag, Ankertext, Web-Server, Server, Web-Browser, Browser, Head, Body, Stichwort, Frameset
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.1.2: HTML

Die bekannteste Anwendung von SGML ist HTML (Hypertext Markup Language), die Auszeichnungssprache des Word Wide Web (WWW) [->] . Die ersten Vorschläge für ein verteiltes Internet-basiertes Hypertext-System, aus dem sich HTML und das HyperText TransferProtokoll (HTTP) entwickelt haben, wurden 1989 gemacht und erste Implementierungen 1990 fertiggestellt. Mit der Version 2.0 wurde HTML 1994 als echte SGML-Anwendung definiert.

HTML wurde als einfache, aber leistungsfähige und plattformunabhängige Auszeichnungssprache geplant, mit der Autorinnen und Autoren in der Lage sein sollten, mit normalen Texteditoren strukturierte Dokumente zu schreiben, ohne sich allzu lange in die Sprache einarbeiten zu müssen. Die frühen Versionen enthielten im Wesentlichen Elemente für Überschriften, Hervorhebungen, Zitate, Quelltextdarstellungen, das Einbinden von Bildern und natürlich das wohl wichtigste Element: den Verweis oder Link auf andere Dokumente oder Dokumentstellen, der durch das A-Element (Anker oder A-Tag) mit den Attributen href am Ausgangspunkt des Verweises und name an seinem Ziel definiert wird. Das A-Element kann Text enthalten, der am Ausgangspunkt des Verweises als Ankertext bezeichnet wird.

HTML-Dokumente werden von Web-Servern bereitgestellt und können von Web-Browsern (Darstellungsprogrammen für HTML-Seiten) mit dem HTTP-Protokoll über das Internet abgerufen und angesehen werden. Mit dem unterdessen ja schon umgangssprachlichen "Mausklick" kann dabei von einem Ankertext zum dort angegebenen Zieldokument oder der angegebenen Stelle gesprungen werden.

Ein HTML-Dokument besteht auf der obersten Ebene aus zwei Elementen, dem Head und dem Body. Im Head können Daten abgelegt werden, die nicht zum dargestellten Inhalt des Dokuments gehören (müssen), wie die zugrunde gelegte HTML-Version (als Verweis auf die entsprechende DTD), ein Titel (der in der Regel im Rahmen des Browser-Fensters angezeigt wird), eine Basisadresse für im Dokument verwendete (relative) Links, Informationen zum verwendeten Editor oder typische Metadaten (siehe Kapitel 4.2 ) wie Autor, Kurzbeschreibung der Seite, Stichwörter oder Copyright-Informationen. Auch Definitionen von und Verweise auf im Dokument verwendete Stylesheets oder Funktionen werden hier angegeben.

Der Body enthält den eigentlichen Dokumenttext, der im Browser dargestellt wird. Dabei bestimmen die verwendeten Tags, zu welchen Elementen der DTD ein Textstück gehört. Über Attribute können weitere Informationen über den enthaltenen Text mitgegeben werden. Allerdings werden die Tags bzw. Elemente sehr häufig nicht als Auszeichnung einer logischen Struktur eines Dokuments verwendet, sondern als Kodierung des konkreten Layouts, das sich bei fast allen Browsern für die Elemente durchgesetzt hat. Dadurch kann bei der Suche in HTML-Dokumenten nicht mehr davon ausgegangen werden, dass Text, der in einem bestimmten Element auftaucht, auch die Rolle im Dokument spielt, die das Element angibt. So wird z.B. das Blockquote Element, das ein Zitat charakterisieren sollte, gerne verwendet, um einen Absatz einzurücken, und für Überschriften werden nicht die dafür vorgesehenen H1 - H6 Elemente verwendet, sondern sie werden über die Schriftgröße und Farbe ausgezeichnet.

Mit wachsender kommerzieller Nutzung des WWW treten die Weiterentwicklungen für die wissenschaftlichen Zwecke wie die Darstellbarkeit von Formeln immer mehr in den Hintergrund. Dafür werden immer mehr Bilder, Grafiken und andere Dokumentformate wie Animationen oder Video eingesetzt, die eine inhaltliche Erschließung erschweren. Auch die Einführung von Framesets, also Aufteilungen des Bildschirmfensters in mehrere Unterbereiche, in denen verschiedene Dateien (oder anders generierte HTML-Dokumente) dargestellt werden, kann zur weiteren Verschleierung der logischen Struktur der Inhalte führen. Auf diese Entwicklungen und ihre Auswirkungen auf die Suche nach Dokumenten und Informationen im Web wird in Kapitel 4.3 noch eingegangen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.1.2HTML
HTML, Hypertext Markup Language, Auszeichnungssprache, Verweis, Link, A-Element, Anker, A-Tag, Ankertext, Web-Server, Server, Web-Browser, Browser, Head, Body, Stichwort, Frameset A-Element, A-Tag, Anker, Ankertext, Auszeichnungssprache, Body, Browser, Frameset, Head, HTML, Hypertext Markup Language, Link, Server, Stichwort, Verweis, Web-Browser, Web-Server

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.