Die inhaltliche Suche nach Dokumenten wird auch Information Retrieval genannt. Ursprünglich vor allem
auf elektronisch gespeicherte Texte angewendet, spricht man heute auch von Multimedia-Retrieval, wenn nach
anderen Objekten wie Ton-, Bild- oder Video-"Dokumenten" gesucht wird und von Text-Retrieval wenn
nach Texten gesucht wird.
Informationsaustausch
Eine zentrale Herausforderung des Information Retrieval besteht darin, ein Informationsobjekt bzw. einen
Informationsbedarf zwischen Menschen und Maschinen auszutauschen. Deshalb muss eine Darstellung
(Repräsentation) der Inhalte gefunden werden, die einerseits einfach genug ist, um von Maschinen und
Menschen "verstanden" zu werden und andererseits komplex genug ist, um die gesuchte oder
angebotene Information zu beschreiben. Und zwar so zu beschreiben, dass die Darstellung für
Menschen und Maschinen gut genug ist, um z. B.
den Inhalt eines Dokuments von den Inhalten anderer Dokumente zu
unterscheiden oder die Dokumentinhalte miteinander vergleichen zu können.
Text-Retrieval
Texte haben verschiedene Vorteile, wenn es um die Repräsentation von Inhalten geht: Sprache und Schrift
sind bewährte und einigermaßen vielen Menschen vertraute Repräsentationen. Sie lassen sich zudem
in Wörter als quasi atomare sinntragende Einheiten zerlegen.
Das heißt nicht, dass das immer eindeutig möglich ist, oder dass dadurch der gesamte Inhalt eines
Textes erfasst wäre (und schon gar nicht, dass alle Texte einen Sinn haben). Aber
im Vergleich zu anderen Inhaltsrepräsentationen - wie (elektronisch gespeicherten) Bildern oder Tönen -
ist diese Zerlegung in elementare Einheiten einfach und nützlich.
Vorlesungen, Artikel und ein Buch
Zu klassischen und aktuellen Methoden und Verfahren des Information Retrieval und zu deren Zusammenhang
mit anderen Disziplinen habe ich an der TU Darmstadt von 1995 bis 2000 im Wechsel die beiden Vorlesungen
"Data Mining und Information Retrieval"
sowie
Informationssysteme
gehalten, deren Skripte im Netz vorliegen.
Daraus ist sowohl das Kapitel "Dokumentsuche und Dokumenterschließung" im Hanser Informatik-Handbuch
[->]
als auch das Buch
"Information Retrieval - Suchmodelle und Data-Mining-Verfahren für Textsammlungen
und das Web" entstanden. (Siehe auch
Lesestoff)
Diese HTML-Datei wurde am 21. 10. 2003 von R. Ferber erzeugt