Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web
Stichwörter dieser Seite World Wide Web, Information Retrieval
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3: Suche im World Wide Web

Nachdem in den ersten Teilen Probleme und Methoden des Information Retrieval in sowie der Wissensextraktion aus vergleichsweise kontrollierten und mehr oder weniger statischen Sammlungen beschrieben wurden, soll in diesem Kapitel auf die Suche im Internet bzw. dem World Wide Web eingegangen werden. Die Darstellung wird sich dabei auf die prinzipiellen Probleme und Möglichkeiten konzentrieren, weil sich die zurzeit angebotenen Systeme zum einen sehr schnell ändern, und zum anderen viele Anbieter aus kommerziellen Gründen ihre Verfahren nur schematisch oder gar nicht offen legen. Kommerzielle und politische Interessen beeinflussen die Entwicklung des Web und insbesondere die Methoden zur inhaltlichen Suche auch in vielen anderen Punkten.

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.1: Das Web als Dokumentensammlung

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.2: Suchmechanismen der Web-Protokolle

Diese Hilfsmittel und insbesondere die Daten in Meta-Tags können nur sinnvoll zur Suche verwendet werden, wenn sie durch externe Systeme wie Suchmaschinen gesammelt und ausgewertet werden. Dabei sind sie aber nicht die einzigen Suchmethoden im Web. Darüber hinaus gibt es eine ganze Reihe weiterer Ansätze, die für die Suche im Web eine immer größere Rolle spielen.

Suchmaschinen, Portale und Verzeichnisse sind unterdessen ein wesentlicher Bereich der "Internet-Ökonomie" geworden, in dem ein starker Konkurrenzdruck herrscht. Deshalb kombinieren Anbieter von Suchsystemen unterschiedliche Suchmethoden, um die Vorteile der einzelnen Ansätze zu nutzen. Auch wenn es also keine "reinen" Modelle gibt, können verschiedene Ansätze unterschieden werden, die im Folgenden näher beschrieben werden sollen:

  • Bei intellektuellen Klassifikationen beurteilen Menschen die einzelnen Angebote und ordnen sie in ein Klassifikationssystem ein, über das die Angebote dann gesucht werden können.
  • Suchmaschinen arbeiten mit einem großen, automatisch erzeugten Index, für den die Angebote automatisch aufgesucht und indexiert werden. Eine Begutachtung durch Menschen findet nicht statt.
  • Der Aufbau von verteilten Dokumentensammlungen, die einer gemeinsamen Strategie folgen, kann als kontrollierte Sammlungen innerhalb des Web gesehen werden ("islands of control").
Bei der Beschreibung der Suchverfahren für das Web wird auf einzelne Methoden oder Tools aus mehreren Gründen nur exemplarisch eingegangen. So ist die Entwicklung in diesem Bereich so schnell und vielfältig, dass jede Beschreibung unvollständig und bald veraltet ist. Zudem verfolgen viele Anbieter von Suchmaschinen im Web kommerzielle Interessen und legen ihre Verfahren deshalb nicht oder nur sehr schematisch offen, um einerseits die Vorzüge ihrer Verfahren nicht anderen Anbietern zugänglich zu machen und andererseits Anbietern von Web-Seiten das Spamming zu erschweren.

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.3: Hierarchische Verzeichnisse oder Web Directories

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.4: Web-Suchmaschinen

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.5: Spezialisierte und verteilte Sammlungen

Pfeil als Kennzeichnung einer Unterueberschrift 4.3.6: Digitale Bibliotheken

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3Suche im World Wide Web
4.3.1Das Web als Dokumentensammlung
4.3.1.1Medienarten
4.3.1.2Sprache
4.3.1.3Länge und Granularität
4.3.1.4Dynamik und Alter von Web-Seiten
4.3.1.5Anbieter und ihre Ziele
4.3.1.6Zielgruppen
4.3.1.7Inhalte
4.3.1.8Spamming
4.3.2Suchmechanismen der Web-Protokolle
4.3.3Hierarchische Verzeichnisse oder Web Directories
4.3.3.1Klassifikation des Open Directory Project
Abb. 102 Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit Beispielen der zweiten Hierarchiestufe
4.3.4Web-Suchmaschinen
4.3.4.1Web-Roboter, Crawler oder Spider
4.3.4.2Ranking-Strategien
4.3.4.3Ranking nach externen Daten
Def. 25 PageRank
4.3.4.4Metasuchdienste
4.3.5Spezialisierte und verteilte Sammlungen
4.3.5.1Der Z39.50-Standard
4.3.5.2Beispiele verteilter Sammlungen
4.3.5.3Peer-to-Peer-Netze
4.3.6Digitale Bibliotheken
4.3.6.1Inhalte einer digitalen Bibliothek
4.3.6.2Dienste
4.3.6.3Archivierung
World Wide Web, Information Retrieval, Web, Server, Client, HTTP, FTP, File Transfer Protocol, Document Like Objects, Dublin Core, Dokumentformat, Medienart, MIME Type, Link, W3C, Granularität, SGML, expires, E-Commerce, Spamming, Rangfolge, Stichwort, paid placement, Klassifikation, Top-Level-Domain, Server, Indexterm, Metadaten, Attribut-Wert-Paar, Stichwort, Dublin Core, RDF, Web Directories, hierarchisches Verzeichnis, Klassifikation, web site, intellektuelle Indexierung, manuelle Indexierung, Yahoo!, ODP, Open Directory Project, Kategorie, Faktendatenbank, Recall, Vektorraummodell, Dokumentvektor, Rangfolge, Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung, Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor, manuelle Indexierung, Klassifikation, Link, Term-Term-Matrix, Ankertext, Indexterm, Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß, Server, Client, Harvest, Bottom-up, Z39.50, Zugang zu Bibliothekskatalogen, Retrieval-Sitzung, session, Client, Server, zustandslos, stateless, Ergebnismenge, result set, boolesches Retrieval, EXPLAIN-Funktion, Dokumenthäufigkeit, Extended Services, Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol, Server, Peer-to-Peer-Netze, Client, Napster, boolesches Retrieval, Vektorraummodell, Metadaten, Stichwort, XML, RDF, Lebensdauer, time to live, TTL, digitale Bibliothek, Digital Library, CERN, Wissenschaftsbetrieb, Qualitätskontrolle, Archivierung, Dublin Core, Archivierung, Rangfolge, Archivierung, Langzeitarchivierung, Formatmigration Abstract, Ankertext, Archivierung, Archivierung, Archivierung, Archivierung, arXiv.org e-Print archive, Attribut-Wert-Paar, boolesches Retrieval, boolesches Retrieval, Bottom-up, CERN, Client, Client, Client, Client, Cosinus-Maß, Crawler, dangling link, Dienst, Digital Library, digitale Bibliothek, Document Like Objects, Dokumentformat, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dublin Core, Dublin Core, Dublin Core, Dublin Core, E-Commerce, Ergebnismenge, expires, EXPLAIN-Funktion, Extended Services, Faktendatenbank, File Transfer Protocol, Formatmigration, FTP, FTP, Granularität, graue Literatur, Harvest, hierarchisches Verzeichnis, HTTP, Indexterm, Indexterm, Information Retrieval, intellektuelle Indexierung, Interoperabilität, invertierte Liste, Kategorie, Klassifikation, Klassifikation, Klassifikation, Klassifikation, Langzeitarchivierung, Lebensdauer, Link, Link, manuelle Indexierung, manuelle Indexierung, Medienart, Metadaten, Metadaten, Metadaten, MIME Type, Namensraum, Napster, NCSTRL, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, OAI, OAI-Spezifikation, ODP, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Open Directory Project, Ordinalskala, paid placement, Peer-to-Peer-Netze, Preprint, Qualitätskontrolle, Rangfolge, Rangfolge, Rangfolge, Rangfolge, RDF, RDF, Recall, result set, Retrieval-Sitzung, robots.txt, Santa Fe Convention, Server, Server, Server, Server, Server, Server, session, SGML, Spamming, Spider, stateless, Stichwort, Stichwort, Stichwort, Term-Term-Matrix, Termhäufigkeit, TF-IDF, time to live, Top-Level-Domain, TTL, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vorabdruck, Vorabveröffentlichung, W3C, Web, Web Directories, web site, Web-Roboter, Web-Server, Wissenschaftsbetrieb, World Wide Web, XML, XML, Yahoo!, Z39.50, Z39.50, Zugang zu Bibliothekskatalogen, zustandslos

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.