Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Das Web als Dokumentensammlung
Stichwörter dieser Seite Granularität, SGML
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.1.3: Länge und Granularität

Auch in Länge und Granularität unterscheiden sich die Dokumente im Web erheblich. Während HTML ursprünglich als eine Auszeichnungssprache zum Schreiben von Berichten - also durchaus längeren Texten - entwickelt wurde, wird heute häufig empfohlen, Dateien zu vermeiden, die nicht als ein Bildschirm- oder Fensterinhalt dargestellt werden können, die also im Browser-Fenster weitergeschoben oder -geblättert ("gescrollt") werden müssen, um sie ganz zu lesen. Das heißt natürlich, dass solche Texte wesentlich kürzer sein müssen als ein ganzer Bericht. Um das zu erreichen, müssen längere Texte in kleinere Teile aufgeteilt werden, deren Zusammengehörigkeit nicht mehr ohne weiteres automatisch von einer Suchmaschine erkannt werden kann. So liegt z.B. der Inhalt der ca. 340 Web-Seiten dieses Angebots auch in Form des oben erwähnten Buchs. Außerdem gibt es verschiedene Skriptversionen, die aus drei bis sieben Teilen bestehen. Schließlich wurde der Inhalt auf ca. 600 Projektionsfolien dargestellt. Alles zusammen war ursprünglich in einer einzigen SGML-Datei gespeichert, aus der die verschiedenen Versionen automatisch erzeugt wurden. Dieses Beispiel illustriert, wie derselbe Inhalt in unterschiedlicher Weise und in einer sehr unterschiedlichen Anzahl von Dateien dargestellt werden kann.

Ein weiteres Problem bei HTML-Seiten liegt darin, dass ihr Inhalt aus verschiedenen Dateien zusammengesetzt sein kann. In diesen HTML-Seiten werden z.B. die Abbildungen als GIF-Bilder zusammen mit der Überschrift und gegebenenfalls den Erläuterungen als eigene Seite präsentiert. Während das Bild als Referenz mit dem IMG-Tag im Text aufgerufen wird und damit zumindest prinzipiell zur Verfügung steht (auch wenn es in der Regel nicht inhaltlich erschlossen werden kann), enthält umgekehrt das Bild keinen Hinweis darauf, in welche HTML-Seite es eingebunden ist, wo also die Überschrift und die Erläuterungen zu finden sind. Um das herauszufinden, braucht man im Prinzip eine komplette Liste aller HTML-Links aus allen HTML-Seiten, aus der diese Information dann herausgesucht werden kann. (Häufig könnte man eine solche Liste auf den Server beschränken, auf dem das Bild liegt, aber rein technisch muss ein Bild nicht auf dem Server liegen, auf dem die Seite liegt, in die es eingebunden wird. In der Praxis ist das auch durchaus nicht immer der Fall.) Noch gravierender stellt sich dieses Problem, wenn mit Hilfe von Framesets HTML-Seiten aus mehreren Dateien zusammengesetzt werden. Die Möglichkeit, nicht nur Bilder, sondern auch Textteile über eine Referenz in eine HTML-Datei einzubinden, ist übrigens auch in Xlink, einem der beiden Verlinkungskonzepte von XML (siehe Abschnitt 4.1.3.1 ), vorgesehen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Das Web als Dokumentensammlung
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.1.3Länge und Granularität
Granularität, SGML Granularität, SGML

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.