Suche im World Wide Web [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Information Retrieval und das Web
Stichwörter dieser Seite	World Wide Web, Information Retrieval
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4.3: Suche im World Wide Web

Nachdem in den ersten Teilen Probleme und Methoden des Information Retrieval in sowie der Wissensextraktion aus vergleichsweise kontrollierten und mehr oder weniger statischen Sammlungen beschrieben wurden, soll in diesem Kapitel auf die Suche im Internet bzw. dem World Wide Web eingegangen werden. Die Darstellung wird sich dabei auf die prinzipiellen Probleme und Möglichkeiten konzentrieren, weil sich die zurzeit angebotenen Systeme zum einen sehr schnell ändern, und zum anderen viele Anbieter aus kommerziellen Gründen ihre Verfahren nur schematisch oder gar nicht offen legen. Kommerzielle und politische Interessen beeinflussen die Entwicklung des Web und insbesondere die Methoden zur inhaltlichen Suche auch in vielen anderen Punkten.

4.3.1: Das Web als Dokumentensammlung

4.3.2: Suchmechanismen der Web-Protokolle

Diese Hilfsmittel und insbesondere die Daten in Meta-Tags können nur sinnvoll zur Suche verwendet werden, wenn sie durch externe Systeme wie Suchmaschinen gesammelt und ausgewertet werden. Dabei sind sie aber nicht die einzigen Suchmethoden im Web. Darüber hinaus gibt es eine ganze Reihe weiterer Ansätze, die für die Suche im Web eine immer größere Rolle spielen.

Suchmaschinen, Portale und Verzeichnisse sind unterdessen ein wesentlicher Bereich der "Internet-Ökonomie" geworden, in dem ein starker Konkurrenzdruck herrscht. Deshalb kombinieren Anbieter von Suchsystemen unterschiedliche Suchmethoden, um die Vorteile der einzelnen Ansätze zu nutzen. Auch wenn es also keine "reinen" Modelle gibt, können verschiedene Ansätze unterschieden werden, die im Folgenden näher beschrieben werden sollen:

Bei intellektuellen Klassifikationen beurteilen Menschen die einzelnen Angebote und ordnen sie in ein Klassifikationssystem ein, über das die Angebote dann gesucht werden können.
Suchmaschinen arbeiten mit einem großen, automatisch erzeugten Index, für den die Angebote automatisch aufgesucht und indexiert werden. Eine Begutachtung durch Menschen findet nicht statt.
Der Aufbau von verteilten Dokumentensammlungen, die einer gemeinsamen Strategie folgen, kann als kontrollierte Sammlungen innerhalb des Web gesehen werden ("islands of control").

Bei der Beschreibung der Suchverfahren für das Web wird auf einzelne Methoden oder Tools aus mehreren Gründen nur exemplarisch eingegangen. So ist die Entwicklung in diesem Bereich so schnell und vielfältig, dass jede Beschreibung unvollständig und bald veraltet ist. Zudem verfolgen viele Anbieter von Suchmaschinen im Web kommerzielle Interessen und legen ihre Verfahren deshalb nicht oder nur sehr schematisch offen, um einerseits die Vorzüge ihrer Verfahren nicht anderen Anbietern zugänglich zu machen und andererseits Anbietern von Web-Seiten das Spamming zu erschweren.

4.3.3: Hierarchische Verzeichnisse oder Web Directories

4.3.4: Web-Suchmaschinen

4.3.5: Spezialisierte und verteilte Sammlungen

4.3.6: Digitale Bibliotheken

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Information Retrieval und das Web

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

4.3	Suche im World Wide Web
4.3.1	Das Web als Dokumentensammlung
4.3.1.1	Medienarten
4.3.1.2	Sprache
4.3.1.3	Länge und Granularität
4.3.1.4	Dynamik und Alter von Web-Seiten
4.3.1.5	Anbieter und ihre Ziele
4.3.1.6	Zielgruppen
4.3.1.7	Inhalte
4.3.1.8	Spamming
4.3.2	Suchmechanismen der Web-Protokolle
4.3.3	Hierarchische Verzeichnisse oder Web Directories
4.3.3.1	Klassifikation des Open Directory Project
Abb. 102	Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit Beispielen der zweiten Hierarchiestufe
4.3.4	Web-Suchmaschinen
4.3.4.1	Web-Roboter, Crawler oder Spider
4.3.4.2	Ranking-Strategien
4.3.4.3	Ranking nach externen Daten
Def. 25	PageRank
4.3.4.4	Metasuchdienste
4.3.5	Spezialisierte und verteilte Sammlungen
4.3.5.1	Der Z39.50-Standard
4.3.5.2	Beispiele verteilter Sammlungen
4.3.5.3	Peer-to-Peer-Netze
4.3.6	Digitale Bibliotheken
4.3.6.1	Inhalte einer digitalen Bibliothek
4.3.6.2	Dienste
4.3.6.3	Archivierung

World Wide Web, Information Retrieval, Web, Server, Client, HTTP, FTP, File Transfer Protocol, Document Like Objects, Dublin Core, Dokumentformat, Medienart, MIME Type, Link, W3C, Granularität, SGML, expires, E-Commerce, Spamming, Rangfolge, Stichwort, paid placement, Klassifikation, Top-Level-Domain, Server, Indexterm, Metadaten, Attribut-Wert-Paar, Stichwort, Dublin Core, RDF, Web Directories, hierarchisches Verzeichnis, Klassifikation, web site, intellektuelle Indexierung, manuelle Indexierung, Yahoo!, ODP, Open Directory Project, Kategorie, Faktendatenbank, Recall, Vektorraummodell, Dokumentvektor, Rangfolge, Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung, Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor, manuelle Indexierung, Klassifikation, Link, Term-Term-Matrix, Ankertext, Indexterm, Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß, Server, Client, Harvest, Bottom-up, Z39.50, Zugang zu Bibliothekskatalogen, Retrieval-Sitzung, session, Client, Server, zustandslos, stateless, Ergebnismenge, result set, boolesches Retrieval, EXPLAIN-Funktion, Dokumenthäufigkeit, Extended Services, Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol, Server, Peer-to-Peer-Netze, Client, Napster, boolesches Retrieval, Vektorraummodell, Metadaten, Stichwort, XML, RDF, Lebensdauer, time to live, TTL, digitale Bibliothek, Digital Library, CERN, Wissenschaftsbetrieb, Qualitätskontrolle, Archivierung, Dublin Core, Archivierung, Rangfolge, Archivierung, Langzeitarchivierung, Formatmigration

Abstract, Ankertext, Archivierung, Archivierung, Archivierung, Archivierung, arXiv.org e-Print archive, Attribut-Wert-Paar, boolesches Retrieval, boolesches Retrieval, Bottom-up, CERN, Client, Client, Client, Client, Cosinus-Maß, Crawler, dangling link, Dienst, Digital Library, digitale Bibliothek, Document Like Objects, Dokumentformat, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dublin Core, Dublin Core, Dublin Core, Dublin Core, E-Commerce, Ergebnismenge, expires, EXPLAIN-Funktion, Extended Services, Faktendatenbank, File Transfer Protocol, Formatmigration, FTP, FTP, Granularität, graue Literatur, Harvest, hierarchisches Verzeichnis, HTTP, Indexterm, Indexterm, Information Retrieval, intellektuelle Indexierung, Interoperabilität, invertierte Liste, Kategorie, Klassifikation, Klassifikation, Klassifikation, Klassifikation, Langzeitarchivierung, Lebensdauer, Link, Link, manuelle Indexierung, manuelle Indexierung, Medienart, Metadaten, Metadaten, Metadaten, MIME Type, Namensraum, Napster, NCSTRL, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, OAI, OAI-Spezifikation, ODP, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Open Directory Project, Ordinalskala, paid placement, Peer-to-Peer-Netze, Preprint, Qualitätskontrolle, Rangfolge, Rangfolge, Rangfolge, Rangfolge, RDF, RDF, Recall, result set, Retrieval-Sitzung, robots.txt, Santa Fe Convention, Server, Server, Server, Server, Server, Server, session, SGML, Spamming, Spider, stateless, Stichwort, Stichwort, Stichwort, Term-Term-Matrix, Termhäufigkeit, TF-IDF, time to live, Top-Level-Domain, TTL, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vorabdruck, Vorabveröffentlichung, W3C, Web, Web Directories, web site, Web-Roboter, Web-Server, Wissenschaftsbetrieb, World Wide Web, XML, XML, Yahoo!, Z39.50, Z39.50, Zugang zu Bibliothekskatalogen, zustandslos

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.