|
4.3.5: Spezialisierte und verteilte Sammlungen
Im Internet haben sich - teilweise schon vor der Entwicklung des World Wide Web -
Server und Sammlungen von Dokumenten und Referenzen entwickelt, die ein bestimmtes Thema
möglichst gut abdecken wollen. Solche Dienste können auf verschiedene Weise organisiert werden.
Es gibt zentral organisierte Dienste (auch "clearing house" genannt), die von einer Organisation
getragen werden, es gibt Dienste, die zwar technisch zentral auf einem Server ablaufen, aber
dezentral gepflegt werden (wie das in Abschnitt 4.3.3.1
beschriebene Open Directory Project),
es gibt Dienste, die auf verteilten Servern laufen und verteilt gepflegt werden, und es gibt
schließlich die Peer-to-Peer-Netze, bei denen sogar der Unterschied zwischen Client und Server
verschwindet. Eine frühe und bekannte Software zum Aufbau und zur Pflege verteilter Sammlungen auf
verteilten Servern ist Harvest
(Bowman, Danzig, Hardy, Manber und Schwartz, 1994 [->]
;
Bowman, Danzig, Manber und Schwartz, 1994 [->]
). Die
damit auf lokalen Servern erfassten Indexinformationen über Textdokumente können an andere Server
weitergegeben und zu Indexsystemen zusammengefasst werden, die viele Server abdecken.
Verteilte Dokumentensammlungen sind für Gruppen sinnvoll, die ein halbwegs abgegrenztes gemeinsames
Interesse und die Bereitschaft haben, den verteilten Service aufzubauen und zu unterhalten.
Der Aufbau und die Pflege von Sammlungen auf lokalen Servern hat verschiedene Vorteile:
- Die lokale Erfassung kann optimal an die lokalen Bedingungen angepasst werden. So können
genau definierte Sammlungen einbezogen und andere Bereiche eines Servers ausgeschlossen
werden, ohne dass die Struktur auf allen Servern gleich sein muss.
- Es können die Indexierungsmethoden eingesetzt werden, die für die lokalen Sammlungen wichtig sind.
Liegen z.B. alle Dokumente in einem bestimmten Dateiformat (wie HTML, Adobe PostScript oder PDF)
vor, genügt es, die Indexierung auf diese Formate zu beschränken.
- Da die Indexierung jeweils lokal geschieht, verteilt sich die Rechenlast auf viele Rechner.
- Wenn ein neues Dokument eingestellt wird, kann die Indexierung angestoßen und das Ergebnis
direkt weitergeleitet werden. Das System kann durch diesen Bottom-up-Ansatz also sehr
aktuell sein.
Andererseits müssen die verteilten Server nach gemeinsamen Grundsätzen aufgesetzt und
gepflegt werden. Sie können nicht - wie bei einer Web-Suchmaschine, die mit Web-Robotern arbeitet -
zentral gepflegt werden. Das ist häufig ein Problem, insbesondere wenn solche Sammlungen eher
informell und mehr oder weniger ehrenamtlich betrieben werden. Zwar gibt es viele exzellente
Seiten, die durch freiwilliges und unbezahltes Engagement entstanden sind; es besteht aber immer
die Gefahr, dass sie durch Interessenänderungen oder beruflichen Wechsel der Protagonisten nicht
weitergeführt werden (können).
|
|
Dieser Abschnitt und seine Unterabschnitte |
Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
Server, Client, Harvest, Bottom-up, Z39.50, Zugang zu Bibliothekskatalogen, Retrieval-Sitzung, session, Client, Server, zustandslos, stateless, Ergebnismenge, result set, boolesches Retrieval, EXPLAIN-Funktion, Dokumenthäufigkeit, Extended Services, Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol, Server, Peer-to-Peer-Netze, Client, Napster, boolesches Retrieval, Vektorraummodell, Metadaten, Stichwort, XML, RDF, Lebensdauer, time to live, TTL |
Abstract, arXiv.org e-Print archive, boolesches Retrieval, boolesches Retrieval, Bottom-up, Client, Client, Client, Dienst, Dokumenthäufigkeit, Dublin Core, Ergebnismenge, EXPLAIN-Funktion, Extended Services, FTP, graue Literatur, Harvest, Interoperabilität, Lebensdauer, Metadaten, Metadaten, Namensraum, Napster, NCSTRL, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, OAI, OAI-Spezifikation, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Peer-to-Peer-Netze, Preprint, RDF, result set, Retrieval-Sitzung, Santa Fe Convention, Server, Server, Server, session, stateless, Stichwort, time to live, TTL, Vektorraummodell, Vorabdruck, Vorabveröffentlichung, XML, XML, Z39.50, Z39.50, Zugang zu Bibliothekskatalogen, zustandslos |
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für
die Inhalte und die Rechte der Online-Version liegen beim Autor
Reginald Ferber, Münster (Westf).
Die Rechte der gedruckten Version
beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder
Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors
Reginald Ferber
bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen
der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen.
Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung
für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten
ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.