Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web
Stichwörter dieser Seite Web, Server, Client, HTTP, FTP, File Transfer Protocol, Document Like Objects, Dublin Core
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.1: Das Web als Dokumentensammlung

Der Begriff "Web" wird im Folgenden eher unscharf gebraucht. Er bezeichnet zum einen das Netzwerk aus Rechnern, die Datensätze zur Verfügung stellen (Servern) und anfordern (Clients) (sowie streng genommen auch die Vielzahl der Rechner, über die die Daten geleitet werden, um vom Server zum Client zu gelangen). Zum anderen bezeichnet er die Menge der (elektronischen) Dokumente oder Datensätze, die über dieses Netz mit den gängigen Übertragungsprotokollen wie HTTP oder FTP (File Transfer Protocol) erreicht werden können. Dabei kommt es nicht darauf an, ob diese Datensätze tatsächlich als Dateien auf dem Server gespeichert oder erst bei der Anforderung generiert werden, sondern darauf, ob sie bei den Empfängern als mehr oder weniger in sich geschlossene Datensätze ankommen.

Die Einschränkung auf bestimmte Übertragungsprotokolle ist dabei ein Versuch zu definieren, mit welchen Inhalten sich die Web-Suche beschäftigen soll. Es wäre eigentlich sinnvoll, diese Menge oder auch verschiedene solcher Suchräume inhaltlich zu definieren, weil dadurch die Suche verbessert werden könnte. Eine solche inhaltliche Definition des Suchraums ist verschiedentlich mehr oder weniger präzise versucht worden - wie bei der Definition der Document Like Objects durch die Dublin-Core-Initiative oder mit Definitionen aus dem Bereich digitale Bibliotheken (siehe Abschnitt 4.3.6 ). Sie hat aber in der Regel keine praktische Auswirkung, solange sie nicht technisch verifiziert werden kann oder allgemein anerkannt und eingesetzt wird. Nur wenn alle Beteiligten erwarten können, dass alle oder zumindest sehr viele Dokumente, die unter die Definition fallen, entsprechend gekennzeichnet sind und dass umgekehrt alle Datensätze, die so gekennzeichnet sind, auch die Definition erfüllen, kann eine solche Definition als Einschränkung eines Suchraums nützlich sein. Da das aber nicht der Fall ist, bleibt als Suchraum im Wesentlichen das, was über die entsprechenden Übertragungsprotokolle gefunden werden kann (auf Einschränkungen dieser Menge wird später eingegangen).

Das führt dazu, dass das Web - wie bereits in der Einführung (Kapitel 1.1 ) beschrieben - nicht nur die größte, sondern wohl auch die heterogenste "Sammlung" von Dokumenten und anderen Datensätzen ist. Die Web-Suchmaschine Google [->] gab im Frühjahr 2002 an, 2,3 Milliarden Web-Seiten indexiert zu haben - die Gesamtzahl aller Web-Seiten dürfte also noch deutlich höher liegen. Die Heterogenität des Web kann in verschiedenen Dimensionen beobachtet werden.

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.1: Medienarten

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.2: Sprache

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.3: Länge und Granularität

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.4: Dynamik und Alter von Web-Seiten

Neben diesen noch halbwegs erkenn- und messbaren Dimensionen, in denen sich Web-Seiten stark unterscheiden, sind es vor allem die Unterschiede in den Inhalten, den Voraussetzungen und Zielen der Anbieter und den Zielgruppen, die das Web so unübersichtlich machen.

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.5: Anbieter und ihre Ziele

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.6: Zielgruppen

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.7: Inhalte

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1.8: Spamming

Nach dieser Beschreibung des Web als heterogener Dokumentensammlung und einiger Probleme, die sich aus der Heterogenität ergeben, sollen im Folgenden verschiedene Ansätze vorgestellt werden, wie die Suche nach Dokumenten mit einem bestimmten Inhalt im Web organisiert werden kann.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.1Das Web als Dokumentensammlung
4.3.1.1Medienarten
4.3.1.2Sprache
4.3.1.3Länge und Granularität
4.3.1.4Dynamik und Alter von Web-Seiten
4.3.1.5Anbieter und ihre Ziele
4.3.1.6Zielgruppen
4.3.1.7Inhalte
4.3.1.8Spamming
Web, Server, Client, HTTP, FTP, File Transfer Protocol, Document Like Objects, Dublin Core, Dokumentformat, Medienart, MIME Type, Link, W3C, Granularität, SGML, expires, E-Commerce, Spamming, Rangfolge, Stichwort, paid placement Client, Document Like Objects, Dokumentformat, Dublin Core, E-Commerce, expires, File Transfer Protocol, FTP, Granularität, HTTP, Link, Medienart, MIME Type, paid placement, Rangfolge, Server, SGML, Spamming, Stichwort, W3C, Web

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.