Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web
Stichwörter dieser Seite Klassifikation, Top-Level-Domain, Server, Indexterm, Metadaten, Attribut-Wert-Paar, Stichwort, Dublin Core, RDF
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.2: Suchmechanismen der Web-Protokolle

Das Web weist im Prinzip eine ganze Reihe Hilfsmittel auf, mit denen seine Inhalte strukturiert und die Suche unterstützt werden könnte. So könnte z.B. mit den Web-Adressen (URL, Uniform Resource Locator) eine hierarchische Klassifikation aufgebaut werden, indem diese von rechts nach links aufgelöst werden. Allerdings wurde schon früh nicht nur eine Sicht bzw. eine Dimension zur Klassifikation eingeführt. Schon die so genannten Top-Level-Domains wurden nach zwei verschiedenen Kriterien ausgewählt: nach Anbietergruppen (.com [commercial], .edu [educational], .gov [government], .mil [military] .net [networking], .org [noncommercial organization], .int [international organization]) und nach Ländern (.at, .de, .fi, .uk, .es, .jp, .fr, .us, ...).

Der Eindruck, dass diese Einteilung (mindestens) zwei verschiedene Kriterien verwendet, gilt aber vermutlich nicht für alle Teile der Welt: Die Top-Level-Domains entsprechen einer verbreiteten (US-) amerikanischen Weltsicht, nach der es die Gesellschaft (bzw. die Welt als solche) gibt und das Ausland. Dieser Sicht entspricht auch, dass die Top-Level-Domains .mil und .gov nur für die US-Regierung und das US-Militär verwendet werden. Sie wird auch in der ODP-Klassifikation deutlich, die in Abschnitt 4.3.3.1 näher beschrieben wird.

Aber nicht nur auf dieser obersten Ebene werden Web-Adressen nicht im Sinne einer inhaltlichen Klassifikation verwendet. Es finden sich zwar immer wieder Ansätze dazu, z.B. in Österreich oder dem vereinigten Königreich, wo akademische Einrichtungen unter der "Second-Level-Domain" ac.at bzw. ac.uk zusammengefasst sind. In vielen Ländern werden Web-Adressen aber nach dem "wer zuerst kommt, mahlt zuerst"- bzw. "first come, first serve"-Verfahren vergeben und nicht nach Kriterien, die den Inhalt des Angebots berücksichtigen. In Deutschland gibt es zwar unterdessen verschiedene Gerichtsurteile, die z.B. Städten oder Firmen mit angestammten Namensrechten auch die entsprechenden Web-Adressen zusprechen, eine geplante Vergabe nach inhaltlichen Kriterien gibt es aber nicht. Das hat dazu geführt, dass auch die in der Top-Level-Domain .de angelegte geografische Klassifizierung nicht weitergeführt wurde und Web-Angebote, die lediglich lokale Dienstleistungen anbieten, "deutschlandweite" Web-Adressen haben. Wenn eine Fahrschule die Web-Adresse www.fahrschule-becker.de oder ein Bauernhof die Adresse www.spargelhof.de hat, heißt das eben nicht unbedingt, dass ihre Dienste bundesweit nützlich sind - und auch die Pizza, die man unter www.pizza-uno.de bestellen kann, dürfte in den meisten Teilen des .de-Bereichs weder warm noch überhaupt ankommen. Für solche Dienstleistungen hat die unkontrollierte Vergabe von Web-Adressen zu einem Zustand geführt, der von einem systematischen Standpunkt gesehen hinter die Organisation der Telefonnummern in Länder- und Ortsnetze zurückfällt.

Hilfsmittel in HTML

Neben den Servernamen als Klassifikationsmittel boten die ersten HTML-Spezifikationen (bis Version 3.2) das Tag isindex, mit dem Zeichenketten als Indexterme eines Dokuments ausgezeichnet werden konnten, für die Suche im Bestand eines Servers an. Aus den so gekennzeichneten Zeichenketten können Web-Server einen Index erstellen, mit dem die Dokumente lokal gesucht werden können. Das WAIS-Protokoll stellt eine entsprechende lokale Volltextsuche zur Verfügung. Beide Verfahren werden allerdings immer weniger genutzt. Solche lokalen Suchmechanismen können für die serverübergreifende Suche zusammengeführt werden, indem die Ergebnisse der lokalen Suche von einem "Knotenrechner" zusammengeführt werden, der dann den Suchservice zur Verfügung stellt. Auf diese verteilten Suchsysteme wird in Abschnitt 4.3.5 eingegangen.

Ein anderes Hilfsmittel, mit dem die Suche nach HTML-Seiten im Web unterstützt werden kann, sind Meta-Tags, in denen Metadaten als Attribut-Wert-Paare untergebracht werden können, die bei der Darstellung der Web-Seite durch einen Browser nicht (als Inhalt) angezeigt werden. Die gebräuchlichsten Attribute sind dabei description und keywords. Das erste kann für eine kurze Beschreibung der Seite genutzt werden, das zweite, um Stichwörter anzugeben. Die Stichwörter können als zusätzliche Indexterme zu einer Seite von Suchmaschinen genutzt werden (siehe Abschnitt 4.3.4 ).

Da sie in der Regel von den Nutzenden nicht gesehen werden, bieten sie sich aber natürlich auch dafür an, mit "populären" Stichwörtern, die allerdings nicht unbedingt etwas mit dem Inhalt der Seite zu tun haben, Spamming-Versuche zu starten. In den Meta-Tags können statt der einfachen Attribute description und keywords auch Metadaten beschrieben werden, die komplexeren Modellen folgen, wie dem Dublin-Core-Metadatenschema (siehe Abschnitt 4.2.1 ). Im Allgemeinen werden dafür aber eher Systeme wie RDF verwendet (siehe Abschnitt 4.2.4 ).

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.2Suchmechanismen der Web-Protokolle
Klassifikation, Top-Level-Domain, Server, Indexterm, Metadaten, Attribut-Wert-Paar, Stichwort, Dublin Core, RDF Attribut-Wert-Paar, Dublin Core, Indexterm, Klassifikation, Metadaten, RDF, Server, Stichwort, Top-Level-Domain

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 13-05-2004 erzeugt.