Web-Roboter, Crawler oder Spider [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Web-Suchmaschinen
Stichwörter dieser Seite	Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4.3.4.1: Web-Roboter, Crawler oder Spider

In der Praxis werden verschiedene Vorgehensweisen zum Auffinden von zu indexierenden Web-Seiten kombiniert. Die wichtigste Rolle spielen dabei so genannte Web-Roboter, Crawler oder Spider. Das sind Programme, die automatisch Dokumente aus dem Netz holen, sie indexieren und darin gefundene Adressen, die auf andere Dokumente verweisen, weiterverfolgen, um weitere Dokumente zu finden.

Aber auch mit diesen Verfahren werden aus verschiedenen Gründen nicht alle Dokumente im Web gefunden: Zum einen kann das Verhalten der Suchroboter von den Servern gesteuert werden, in dem entsprechende, von den Robotern interpretierbare Anweisungen abgelegt werden. Dazu dient z.B. eine Datei robots.txt im Wurzelverzeichnis eines Web-Servers, die von Robotern gelesen werden kann. Auch mit Meta-Tag-Einträgen im Header eines HTML-Dokuments können Anweisungen an Web-Roboter gegeben werden: Ein Tag <meta name="robots" value="noindex"> verbietet z.B. die Aufnahme in einen Suchindex. Wird statt noindex nofollow angegeben, soll zwar diese Seite, aber keine Seiten, auf die verwiesen wird, von der Suchmaschine verzeichnet werden. Man kann Web-Roboter auch mit der Angabe von index oder follow auffordern, die Seiten zu indexieren. Dabei ist es für die Server allerdings kaum möglich, einen Roboter von normalen Nutzenden zu unterscheiden - daher bleiben diese Anweisungen Vorschläge, an die sich aber die meisten Suchmaschinen zu halten scheinen.

Neben diesen Versuchen, den Zugang von Robotern gezielt zu steuern, gibt es noch viele andere Gründe dafür, dass Dokumente nicht erreicht werden: Langsame Leitungen, Passwortschutz oder die Einschränkungen des Zugangs auf Rechner aus bestimmten Domains (also mit bestimmten Adressen) können solche Gründe sein. Viele Suchroboter schränken auch die "Tiefe" ein, aus der noch Seiten verwendet werden, also den minimalen Abstand in Verzeichnissen oder Links zur Wurzel (also der Basisadresse) eines Servers. Auch Dokumente in anderen Formaten als HTML (z.B. PostScript, PDF, Word, Flash) werden teilweise nicht indexiert. Schließlich können alle Dokumente, die nicht durch Verlinkungen, sondern über Anfragen an eine Datenbank zur Verfügung gestellt werden, kaum von Robotern (die den Links folgen) gefunden werden. Schätzungen sprechen davon, dass etwa 30% bis 40% der Dokumente, die über das Web angeboten werden, durch Suchmaschinen erfasst sind.

Da sich Web-Seiten häufig ändern, verlegt werden oder verschwinden, müssen auch einmal erfasste Seiten von den Robotern immer wieder besucht werden, um den Index aktuell zu halten. Da das einen hohen Aufwand bedeuten kann, ist es sinnvoll, diese Aktualisierungen gezielt zu steuern. Parameter einer solchen Steuerung können z.B. die Häufigkeit sein, mit der die Seiten in Ergebnislisten auftauchen, oder die Häufigkeit von Änderungen in der Vergangenheit. Das können aber immer nur Grundlagen für Vorhersagen oder Schätzungen dafür sein, ob sich eine Seite geändert hat. Sinnvoller wäre natürlich ein Aktualisierungsmechanismus, der von tatsächlichen Änderungen angestoßen (getriggert) wird. Das würde aber eine zweiseitige Verbindung verlangen, ein Web-Anbieter müsste also "wissen", in welchen Suchmaschinen seine Seiten erfasst sind bzw. welcher Roboter ihn besucht hat. Das ist im Allgemeinen nicht vorgesehen. Es würde auch die Abhängigkeit der Suchmaschinen von den Web-Anbietern und deren zuverlässiger Kooperation vergrößern.

Einige Suchmaschinen archivieren auch die kompletten Seiten, wenn sie indexiert werden. Das hat den Vorteil, dass Änderungen der Seiten auch unabhängig von den Angaben der Anbieter verfolgt werden können. Außerdem können damit Links vermieden werden, die auf nicht mehr existierende oder momentan nicht erreichbare Seiten zeigen (so genannte dangling links): Im Zweifelsfall kann die archivierte Seite angeboten werden. Die Archivierung erleichtert es auch, Informationen aus anderen Dokumenten für das Retrieval zu nutzen (siehe Abschnitt 4.3.4.3.1 ).

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Web-Suchmaschinen

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

4.3.4.1

Web-Roboter, Crawler oder Spider

Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung

Archivierung, Crawler, dangling link, robots.txt, Server, Spider, Web-Roboter, Web-Server

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.