Spezialisierte und verteilte Sammlungen [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web
Stichwörter dieser Seite	Server, Client, Harvest, Bottom-up
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4.3.5: Spezialisierte und verteilte Sammlungen

Im Internet haben sich - teilweise schon vor der Entwicklung des World Wide Web - Server und Sammlungen von Dokumenten und Referenzen entwickelt, die ein bestimmtes Thema möglichst gut abdecken wollen. Solche Dienste können auf verschiedene Weise organisiert werden. Es gibt zentral organisierte Dienste (auch "clearing house" genannt), die von einer Organisation getragen werden, es gibt Dienste, die zwar technisch zentral auf einem Server ablaufen, aber dezentral gepflegt werden (wie das in Abschnitt 4.3.3.1 beschriebene Open Directory Project), es gibt Dienste, die auf verteilten Servern laufen und verteilt gepflegt werden, und es gibt schließlich die Peer-to-Peer-Netze, bei denen sogar der Unterschied zwischen Client und Server verschwindet. Eine frühe und bekannte Software zum Aufbau und zur Pflege verteilter Sammlungen auf verteilten Servern ist Harvest (Bowman, Danzig, Hardy, Manber und Schwartz, 1994 [->] ; Bowman, Danzig, Manber und Schwartz, 1994 [->] ). Die damit auf lokalen Servern erfassten Indexinformationen über Textdokumente können an andere Server weitergegeben und zu Indexsystemen zusammengefasst werden, die viele Server abdecken.

Verteilte Dokumentensammlungen sind für Gruppen sinnvoll, die ein halbwegs abgegrenztes gemeinsames Interesse und die Bereitschaft haben, den verteilten Service aufzubauen und zu unterhalten. Der Aufbau und die Pflege von Sammlungen auf lokalen Servern hat verschiedene Vorteile:

Die lokale Erfassung kann optimal an die lokalen Bedingungen angepasst werden. So können genau definierte Sammlungen einbezogen und andere Bereiche eines Servers ausgeschlossen werden, ohne dass die Struktur auf allen Servern gleich sein muss.
Es können die Indexierungsmethoden eingesetzt werden, die für die lokalen Sammlungen wichtig sind. Liegen z.B. alle Dokumente in einem bestimmten Dateiformat (wie HTML, Adobe PostScript oder PDF) vor, genügt es, die Indexierung auf diese Formate zu beschränken.
Da die Indexierung jeweils lokal geschieht, verteilt sich die Rechenlast auf viele Rechner.
Wenn ein neues Dokument eingestellt wird, kann die Indexierung angestoßen und das Ergebnis direkt weitergeleitet werden. Das System kann durch diesen Bottom-up-Ansatz also sehr aktuell sein.

Andererseits müssen die verteilten Server nach gemeinsamen Grundsätzen aufgesetzt und gepflegt werden. Sie können nicht - wie bei einer Web-Suchmaschine, die mit Web-Robotern arbeitet - zentral gepflegt werden. Das ist häufig ein Problem, insbesondere wenn solche Sammlungen eher informell und mehr oder weniger ehrenamtlich betrieben werden. Zwar gibt es viele exzellente Seiten, die durch freiwilliges und unbezahltes Engagement entstanden sind; es besteht aber immer die Gefahr, dass sie durch Interessenänderungen oder beruflichen Wechsel der Protagonisten nicht weitergeführt werden (können).

4.3.5.1: Der Z39.50-Standard

4.3.5.2: Beispiele verteilter Sammlungen

4.3.5.3: Peer-to-Peer-Netze

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

4.3.5	Spezialisierte und verteilte Sammlungen
4.3.5.1	Der Z39.50-Standard
4.3.5.2	Beispiele verteilter Sammlungen
4.3.5.3	Peer-to-Peer-Netze

Server, Client, Harvest, Bottom-up, Z39.50, Zugang zu Bibliothekskatalogen, Retrieval-Sitzung, session, Client, Server, zustandslos, stateless, Ergebnismenge, result set, boolesches Retrieval, EXPLAIN-Funktion, Dokumenthäufigkeit, Extended Services, Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol, Server, Peer-to-Peer-Netze, Client, Napster, boolesches Retrieval, Vektorraummodell, Metadaten, Stichwort, XML, RDF, Lebensdauer, time to live, TTL

Abstract, arXiv.org e-Print archive, boolesches Retrieval, boolesches Retrieval, Bottom-up, Client, Client, Client, Dienst, Dokumenthäufigkeit, Dublin Core, Ergebnismenge, EXPLAIN-Funktion, Extended Services, FTP, graue Literatur, Harvest, Interoperabilität, Lebensdauer, Metadaten, Metadaten, Namensraum, Napster, NCSTRL, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, OAI, OAI-Spezifikation, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Peer-to-Peer-Netze, Preprint, RDF, result set, Retrieval-Sitzung, Santa Fe Convention, Server, Server, Server, session, stateless, Stichwort, time to live, TTL, Vektorraummodell, Vorabdruck, Vorabveröffentlichung, XML, XML, Z39.50, Z39.50, Zugang zu Bibliothekskatalogen, zustandslos

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.