Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Einführende Beispiele
Stichwörter dieser Seite World Wide Web, Web, HTTP, Hypertext Transfer Protocol, Auszeichnungssprache, HTML, Hypertext Markup Language, Information Retrieval, IR, Dokument
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.1.1: Einführung

Die zunehmende Verbreitung von elektronischen Informationsverarbeitungs- und Speichermedien lässt die Menge der Daten, Texte, Bilder und Videofilme, die digital zur Verfügung stehen, immer schneller anwachsen. Gleichzeitig werden diese Daten durch die zunehmende Vernetzung für immer mehr Menschen zugänglich. Das gilt sowohl innerhalb einzelner Organisationen als auch weltweit zwischen Organisationen und Einzelpersonen.

Diese Daten können aber nur genutzt werden, wenn sie auch erschlossen sind, wenn also diejenigen, die sie nutzen wollen oder sollen, auch wissen, dass und wo es die Daten gibt, wie sie gesuchte Informationen darin finden können und wie sie diese nutzen können und dürfen. Um zu illustrieren, wie unterschiedlich die Bedingungen sein können, kann man die klassische Telefonauskunft und das Web als Beispiele für Systeme betrachten, die Informationen zur Verfügung stellen.

Die Telefonauskunft setzt voraus, dass die Nutzenden wissen, wozu ein Telefon gut ist, wie man damit umgeht und wessen Telefonnummer sie suchen. Die gegebene Information hat einen genau bestimmten Zweck: den entsprechenden Telefonanschluss zu erreichen. Wenn die Telefonnummer zu einem bestimmten Namen erfragt wird, werden die Angaben von den Nutzenden im Allgemeinen als verlässlich angesehen, da kein unmittelbarer Grund ersichtlich ist, warum eine falsche Auskunft erteilt werden sollte. (Wenn nicht nach einer Adresse, sondern nach einer Dienstleistung gefragt wird - wie der Nummer eines Rechtsanwalts oder einer Ärztin - sieht das schon anders aus.)

Beim World Wide Web (im Folgenden auch einfach Web genannt) sind die Verhältnisse weniger klar. Es besteht aus Milliarden Dateien, die weltweit auf unzähligen Rechnern verteilt sind und deren wesentliche Gemeinsamkeiten das Übertragungsprotokoll HTTP (Hypertext Transfer Protocol) und zum Teil die Auszeichnungssprache HTML (Hypertext Markup Language) sind. Weder die Inhalte noch der Zweck des Systems sind klar definiert. Entsprechend aufwändiger ist es hier, nach bestimmten Inhalten zu suchen. Hat man Informationen gefunden, ist es schwierig zu beurteilen, ob sie richtig, vollständig und zuverlässig sind.

Während die klassische Telefonauskunft also einen sehr spezifischen Informationsbedarf in einem genau festgelegten Handlungsablauf bedient, waren beim Web zunächst weder für die Inhalte, noch für die Art, in der mit ihnen umgegangen wird, feste Regeln vorgegeben. In den ersten Jahren schien es eher durch die technischen Möglichkeiten als durch einen tatsächlichen Informationsbedarf bestimmt zu sein. Erst im Lauf der Zeit hat sich das Web zu einem wichtigen Informationsmedium entwickelt, das auch durch entsprechende Gesetze und wirtschaftliche Erwartungen reglementiert ist. Dabei bilden sich aber vor allem einzelne kontrollierte Angebote innerhalb eines unkoordinierten Gesamtsystems heraus.

Das Problem, in wenig koordinierten und kontrollierten "Sammlungen" die "richtigen" Informationen oder Dokumente zu finden, ist allerdings weder neu, noch auf elektronische Medien beschränkt. So wurde z.B. im Bereich des (wissenschaftlichen) Literatur- und Bibliothekswesens schon lange versucht, Systematiken zu entwickeln, nach denen Artikel und Bücher inhaltlich erfasst, bewertet und geordnet werden können. Die dafür entwickelten Systeme waren aber meist auf vergleichsweise kleine oder wohl definierte Dokumentensammlungen, Sachgebiete und Gruppen von Nutzenden beschränkt. Sie stützen sich häufig auf die Begutachtung und Einordnung der Dokumente durch Fachleute. Dadurch, dass die Digitalisierung und Vernetzung zunimmt und dass es für viele Menschen immer einfacher und billiger wird, selbst Dokumente zu erstellen und öffentlich zugänglich zu machen, stellen sich viele Probleme neu.

Die Faktoren Informationsbedarf und technische Machbarkeit haben bei der Entwicklung von Informationssystemen natürlich immer eine Rolle gespielt: Zum einen muss ein hinreichend großer Informationsbedarf vorhanden sein, damit ein System entwickelt wird, zum anderen setzen die technischen Möglichkeiten häufig Grenzen. Historisch sind beide Faktoren für elektronische Systeme wesentlich wichtiger gewesen, als sie heute erscheinen. Computer waren noch vor 30 Jahren sehr teuer und vor allem selten. Sie standen fast nur großen wissenschaftlichen Einrichtungen zur Verfügung. Ihr Einsatz musste explizit gerechtfertigt und genehmigt werden. Zudem waren sie im Vergleich zu heute nicht sehr weit entwickelt. Insbesondere das Speichern großer Datenmengen war aufwändig und teuer.

In dieser Situation wurden erste Systeme entwickelt, um den ständig wachsenden Bestand an (wissenschaftlicher) Literatur zu verwalten und nach inhaltlichen Kriterien darauf zugreifen zu können. Dazu entstanden zunächst Katalogsysteme, die zunehmend auch inhaltliche Beschreibungen der katalogisierten Dokumente enthielten. Aus diesem Ansatz hat sich das Fachgebiet Information Retrieval (IR) entwickelt. Es beschäftigte sich zunächst vor allem damit, die relevante Literatur zu einer wissenschaftlichen Fragestellung zu finden. (Aus diesem Grund bezeichnet man im Allgemeinen die Objekte, nach denen mit IR-Systemen gesucht wird, als Dokumente, selbst wenn es sich nicht um Texte handelt.)

Im Folgenden werden verschiedene Möglichkeiten, Literatur zu einem Thema zu suchen, kurz dargestellt. Anschließend werden exemplarisch einige Beispiele für Systeme, die Informationen vermitteln, beschrieben.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Einführende Beispiele
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.1.1Einführung
World Wide Web, Web, HTTP, Hypertext Transfer Protocol, Auszeichnungssprache, HTML, Hypertext Markup Language, Information Retrieval, IR, Dokument Auszeichnungssprache, Dokument, HTML, HTTP, Hypertext Markup Language, Hypertext Transfer Protocol, Information Retrieval, IR, Web, World Wide Web

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.