Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web
Stichwörter dieser Seite Vektorraummodell, Dokumentvektor, Rangfolge
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.4: Web-Suchmaschinen

Web-Suchmaschinen indexieren Web-Seiten automatisch, also ohne dass diese von Menschen gesehen oder begutachtet werden, und können daher viele Seiten anbieten. Die meisten Suchmaschinen sind Realisierungen des Vektorraummodells. Sie bauen Dokumentvektoren für die Dokumente auf, die sie im Web finden, und legen sie in gigantischen Indexstrukturen ab. Anfragen werden in der Regel dadurch beantwortet, dass die Adressen der Dokumente und kleine Auszüge wie Titel und Textanfang, die häufig mit den Adressen gespeichert werden, in einer Rangfolge zurückgeliefert werden. Um das für eine große Suchmaschine zu leisten, müssen sehr leistungsfähige Rechner und sehr effektive Methoden verwendet werden. Auf diese Optimierung wird hier nicht eingegangen.

Bei der Auswahl der zu indexierenden Seiten müssen Web-Suchmaschinen verschiedene Aspekte berücksichtigen. Um für Nutzende attraktiv zu sein, sollten sie möglichst vollständig und aktuell, aber auch vertrauenswürdig sein. Das heißt, sie sollten möglichst viele Seiten des Web oder des speziellen Themenbereichs, den sie bedienen wollen, möglichst schnell nach deren Entstehen oder nach Änderungen indexieren und dabei den Eindruck erwecken, dass Auswahl und gegebenenfalls eine Rangordnung fair, objektiv und nach "guten" Kriterien und Verfahren geschieht. Sie sollten also Seiten liefern, die wegen ihres Inhalts, ihrer Sprache und ihrer Erreichbarkeit gut zum Informationsbedarf der Nutzenden passen.

Um aktuell zu sein, ist es sinnvoll, Angebote von ihren Anbietern anmelden zu lassen. Dabei besteht aber die Gefahr, dass vor allem Seiten von Anbietern berücksichtigt werden, die sich besonders darum kümmern, ihre Seiten anzumelden. Die Grenzen zwischen legitimer Anmeldung der eigenen Seiten und Spamming sind dabei fließend. Dadurch kann die Auswahl der Seiten, die in einer Web-Suchmaschine erfasst sind, beeinflusst werden und die "Objektivität" der Ergebnismengen leiden. Das gilt insbesondere dann, wenn nicht nur die Web-Adressen, sondern zusätzlich auch Bewertungen bei der Anmeldung abgegeben werden können. Viele Suchmaschinenanbieter wollen sich deshalb nicht auf die Angaben der Web-Anbieter verlassen oder sich von diesen abhängig machen. Teilweise bewerten Suchmaschinen sogar Seiten, die über Anmeldedienste (also Programme, die eine Seite automatisch bei möglichst vielen Suchmaschinen anmelden) angemeldet werden, schlechter oder nehmen sie erst gar nicht in die Sammlung auf, wenn die Anmeldung über den Dienst erkennbar ist.

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.4.1: Web-Roboter, Crawler oder Spider

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.4.2: Ranking-Strategien

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.4.3: Ranking nach externen Daten

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.4.4: Metasuchdienste

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.4Web-Suchmaschinen
4.3.4.1Web-Roboter, Crawler oder Spider
4.3.4.2Ranking-Strategien
4.3.4.3Ranking nach externen Daten
Def. 25 PageRank
4.3.4.4Metasuchdienste
Vektorraummodell, Dokumentvektor, Rangfolge, Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung, Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor, manuelle Indexierung, Klassifikation, Link, Term-Term-Matrix, Ankertext, Indexterm, Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß Ankertext, Archivierung, Cosinus-Maß, Crawler, dangling link, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Indexterm, invertierte Liste, Klassifikation, Klassifikation, Link, manuelle Indexierung, Ordinalskala, Rangfolge, Rangfolge, robots.txt, Server, Spider, Term-Term-Matrix, Termhäufigkeit, TF-IDF, Vektorraummodell, Vektorraummodell, Vektorraummodell, Web-Roboter, Web-Server

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.