|
Nachdem in den ersten Teilen Probleme
und Methoden des Information Retrieval
in sowie der Wissensextraktion aus vergleichsweise kontrollierten und mehr oder
weniger statischen Sammlungen beschrieben wurden, soll in diesem Kapitel auf
die Suche im Internet bzw. dem World Wide Web eingegangen werden.
Die Darstellung wird sich dabei auf die prinzipiellen Probleme und Möglichkeiten
konzentrieren, weil sich die zurzeit angebotenen Systeme zum einen sehr schnell
ändern, und zum anderen viele Anbieter aus kommerziellen Gründen ihre Verfahren nur
schematisch oder gar nicht offen legen. Kommerzielle und politische Interessen beeinflussen
die Entwicklung des Web und insbesondere die Methoden zur inhaltlichen Suche auch in
vielen anderen Punkten.
Diese Hilfsmittel und insbesondere die Daten in Meta-Tags können nur sinnvoll zur Suche
verwendet werden, wenn sie durch externe Systeme wie Suchmaschinen gesammelt und ausgewertet
werden. Dabei sind sie aber nicht die einzigen Suchmethoden im Web.
Darüber hinaus gibt es eine ganze Reihe weiterer Ansätze, die für die Suche im Web eine immer
größere Rolle spielen.
Suchmaschinen, Portale und Verzeichnisse sind unterdessen ein
wesentlicher Bereich der "Internet-Ökonomie" geworden, in dem ein starker Konkurrenzdruck
herrscht.
Deshalb kombinieren Anbieter von Suchsystemen unterschiedliche Suchmethoden,
um die Vorteile der einzelnen Ansätze zu nutzen. Auch wenn es also keine "reinen" Modelle
gibt, können verschiedene Ansätze
unterschieden werden, die im Folgenden näher beschrieben werden sollen:
- Bei intellektuellen Klassifikationen beurteilen Menschen die einzelnen Angebote
und ordnen sie in ein Klassifikationssystem ein, über das die Angebote dann gesucht
werden können.
- Suchmaschinen arbeiten mit einem großen, automatisch erzeugten Index, für den die Angebote
automatisch aufgesucht und indexiert werden.
Eine Begutachtung durch Menschen findet nicht statt.
- Der Aufbau von verteilten Dokumentensammlungen, die einer gemeinsamen
Strategie folgen, kann als
kontrollierte Sammlungen innerhalb des Web gesehen werden ("islands of control").
Bei der Beschreibung der Suchverfahren für das Web wird auf einzelne Methoden oder Tools aus
mehreren Gründen nur exemplarisch eingegangen.
So ist die Entwicklung in diesem Bereich so schnell und vielfältig,
dass jede Beschreibung unvollständig und bald veraltet ist. Zudem verfolgen viele
Anbieter von Suchmaschinen im Web kommerzielle Interessen und legen ihre Verfahren deshalb
nicht oder nur sehr schematisch offen, um einerseits die Vorzüge ihrer Verfahren nicht
anderen Anbietern zugänglich zu machen und andererseits Anbietern von Web-Seiten
das Spamming zu erschweren.
|
|
Dieser Abschnitt und seine Unterabschnitte |
Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
World Wide Web, Information Retrieval, Web, Server, Client, HTTP, FTP, File Transfer Protocol, Document Like Objects, Dublin Core, Dokumentformat, Medienart, MIME Type, Link, W3C, Granularität, SGML, expires, E-Commerce, Spamming, Rangfolge, Stichwort, paid placement, Klassifikation, Top-Level-Domain, Server, Indexterm, Metadaten, Attribut-Wert-Paar, Stichwort, Dublin Core, RDF, Web Directories, hierarchisches Verzeichnis, Klassifikation, web site, intellektuelle Indexierung, manuelle Indexierung, Yahoo!, ODP, Open Directory Project, Kategorie, Faktendatenbank, Recall, Vektorraummodell, Dokumentvektor, Rangfolge, Web-Roboter, Crawler, Spider, Server, robots.txt, Web-Server, dangling link, Archivierung, Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor, manuelle Indexierung, Klassifikation, Link, Term-Term-Matrix, Ankertext, Indexterm, Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß, Server, Client, Harvest, Bottom-up, Z39.50, Zugang zu Bibliothekskatalogen, Retrieval-Sitzung, session, Client, Server, zustandslos, stateless, Ergebnismenge, result set, boolesches Retrieval, EXPLAIN-Funktion, Dokumenthäufigkeit, Extended Services, Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol, Server, Peer-to-Peer-Netze, Client, Napster, boolesches Retrieval, Vektorraummodell, Metadaten, Stichwort, XML, RDF, Lebensdauer, time to live, TTL, digitale Bibliothek, Digital Library, CERN, Wissenschaftsbetrieb, Qualitätskontrolle, Archivierung, Dublin Core, Archivierung, Rangfolge, Archivierung, Langzeitarchivierung, Formatmigration |
Abstract, Ankertext, Archivierung, Archivierung, Archivierung, Archivierung, arXiv.org e-Print archive, Attribut-Wert-Paar, boolesches Retrieval, boolesches Retrieval, Bottom-up, CERN, Client, Client, Client, Client, Cosinus-Maß, Crawler, dangling link, Dienst, Digital Library, digitale Bibliothek, Document Like Objects, Dokumentformat, Dokumenthäufigkeit, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dublin Core, Dublin Core, Dublin Core, Dublin Core, E-Commerce, Ergebnismenge, expires, EXPLAIN-Funktion, Extended Services, Faktendatenbank, File Transfer Protocol, Formatmigration, FTP, FTP, Granularität, graue Literatur, Harvest, hierarchisches Verzeichnis, HTTP, Indexterm, Indexterm, Information Retrieval, intellektuelle Indexierung, Interoperabilität, invertierte Liste, Kategorie, Klassifikation, Klassifikation, Klassifikation, Klassifikation, Langzeitarchivierung, Lebensdauer, Link, Link, manuelle Indexierung, manuelle Indexierung, Medienart, Metadaten, Metadaten, Metadaten, MIME Type, Namensraum, Napster, NCSTRL, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, OAI, OAI-Spezifikation, ODP, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Open Directory Project, Ordinalskala, paid placement, Peer-to-Peer-Netze, Preprint, Qualitätskontrolle, Rangfolge, Rangfolge, Rangfolge, Rangfolge, RDF, RDF, Recall, result set, Retrieval-Sitzung, robots.txt, Santa Fe Convention, Server, Server, Server, Server, Server, Server, session, SGML, Spamming, Spider, stateless, Stichwort, Stichwort, Stichwort, Term-Term-Matrix, Termhäufigkeit, TF-IDF, time to live, Top-Level-Domain, TTL, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vektorraummodell, Vorabdruck, Vorabveröffentlichung, W3C, Web, Web Directories, web site, Web-Roboter, Web-Server, Wissenschaftsbetrieb, World Wide Web, XML, XML, Yahoo!, Z39.50, Z39.50, Zugang zu Bibliothekskatalogen, zustandslos |
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für
die Inhalte und die Rechte der Online-Version liegen beim Autor
Reginald Ferber, Münster (Westf).
Die Rechte der gedruckten Version
beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder
Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors
Reginald Ferber
bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen
der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen.
Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung
für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten
ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.