R. Ferber: Informationssysteme 1.1

Vorbemerkung zur Vorlesung Informationssysteme

Die zunehmende Verbreitung von elektronischen Informationsverarbeitungs- und Speichermedien lässt die Menge der Daten und Texte, die prinzipiell digital zur Verfügung stehen, immer schneller anwachsen. Gleichzeitig werden diese Daten durch die zunehmende Vernetzung für immer mehr Menschen zugänglich. Das gilt sowohl für einzelne Organisationen als auch weltweit. Diese Datenmengen können aber nur genutzt werden, wenn sie auch erschlossen sind, d. h. wenn diejenigen, die sie nutzen wollen, auch wissen, wo und wie sie sie finden, was sie beinhalten und wie sie sie verwenden können. Dieses Wissen wird nur teilweise durch die Systeme, von denen die Daten angeboten werden, explizit vermittelt. So wird bei der Telefonauskunft vorausgesetzt, dass die Nutzenden wissen, wozu ein Telefon gut ist, wie man damit umgeht und wessen Telefonnummer sie suchen. Diese Annahme erscheint sinnvoll, da die Auskunft im Allgemeinen nur mit einem Telefon erreicht werden kann und angerufen wird, um Telefonnummern zu erfragen. Wenn die Telefonnummer zu einem bestimmten Namen erfragt wird, werden die Angaben von den Nutzenden im Allgemeinen auch als verlässlich angesehen, da kein unmittelbarer Grund ersichtlich ist, warum eine falsche Auskunft erteilt werden sollte. Wird aber nicht nach einer Adresse sondern nach einer Dienstleistung gefragt (die Nummer einer Rechtsanwältin oder eines Arztes), ergeben sich zusätzliche Auswahlkriterien für eine Nummer.

In anderen Fällen sind die Verhältnisse weniger klar. Das World Wide Web (WWW) zum Beispiel besteht aus zig Millionen Dateien, die weltweit auf unzähligen Rechnern verteilt sind und deren wesentliche Gemeinsamkeit die Auszeichnungssprache HTML (Hypertext Markup Language) ist. Hier sind weder die Inhalte noch der Zweck des Systems klar definiert. Entsprechend aufwändiger ist es hier, nach bestimmten Inhalten zu suchen. Hat man Informationen gefunden, ist es viel schwieriger zu beurteilen, ob sie richtig, vollständig und zuverlässig sind.

Solche Probleme sind allerdings weder völlig neu, noch auf elektronische Medien beschränkt. So wurde z. B. im Bereich des (wissenschaftlichen) Literatur- und Bibliothekswesens schon lange versucht, Systematiken zu entwickeln, nach denen Artikel und Bücher inhaltlich erfasst, bewertet und geordnet werden können. In den letzten 40 Jahren wurden zahlreiche elektronische Information Retrieval ( IR) Systeme entwickelt, um gezielt nach Dokumenten mit einem bestimmten Inhalt suchen zu können. Solche Systeme waren aber meist auf vergleichsweise kleine und / oder wohldefinierte Dokumentsammlungen, Sachgebiete und Gruppen von Nutzenden beschränkt. Dadurch, dass zum einen die Digitalisierung und Vernetzung zunimmt und dass es zum anderen für viele Menschen immer einfacher und billiger wird, selbst Dokumente zu erstellen und öffentlich zugänglich zu machen, stellen sich aber viele Probleme neu.

Im Information Retrieval geht es darum, Dokumente und Wissen für Nutzende zugänglich zu machen. Dazu müssen die Nutzenden zum einen in der Lage sein, ihren oft nur vagen Informationsbedarf an das System zu übermitteln, zum anderen müssen die Ergebnisse einer Suche so dargestellt werden, dass sie von den Nutzenden gut verstanden und genutzt werden können. Die Qualität eines Systems misst sich letztendlich daran, wie gut es Menschen bei der Lösung ihrer Probleme unterstützt. Um eine gute Unterstützung zu erreichen, ist es notwendig, Systeme an die Art und Weise, wie Menschen Information verarbeiten, anzupassen. Das bedeutet, dass die Forschung und Entwicklung in diesem Bereich immer auch die menschliche Informationsverarbeitung in Betracht ziehen und damit auch empirische Methoden der Kognitionsforschung berücksichtigen muss. Forschung und Entwicklung zu IRliegen also im Grenzbereich zwischen Ingenieurwissenschaften und empirischen Humanwissenschften.

Die Vorlesung ist folgendermaßen gegliedert:

In der Einführung (Teil ) werden einige typische Aufgaben und Szenarien beschrieben. Dabei werden auch einige Anforderungen und Probleme genannt, die bei der Entwicklung von Systemen berücksichtigt werden müssen.
Im . Teil werden grundlegende Überlegungen zum Thema angestellt und ein allgemeines Modelle eines IR Systems beschrieben.
Der Teil stellt die "klassischen" Modelle und Verfahren des Information Retrieval vor. Dabei wird - soweit möglich - auf die aktuellen Entwicklungen im WWW eingegangen.
In Teil werden neuere IR Verfahren vorgestellt. Insbesondere wird auf die Ergebnisse der TREC Experimente eingegangen. Weiter werden Entwicklungen vorgestellt, die neue Methoden aus verwandten Gebieten im IR, bzw. zur Weiterentwicklung von Informationssystemen einsetzen.

Die Grundlagen für diese Vorlesung sind Bücher und Skripte zum Thema Information Retrieval: Van Rijsbergen (1979 [->], liegt in einer HTML-Version im Netz), Salton and McGill (1983 [->]), Salton (1988 [->]), Frakes and Baeza-Yates (1992 [->])), Fuhr (1997 [->]) und Grossman & Frieder (1998 [->]).

Ansonsten wurden zahlreiche Originalbeiträge aus Fachzeitschriften, Tagungsbänden und Technical Reports zugrunde gelegt. Entsprechend ist auch die Auswahl der Themen der Vorlesung: Neben den Grundlagen der jeweiligen Gebiete werden einzelne Implementierungen und experimentelle Ergebnisse vorgestellt.