Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Grundlagen -> Information Retrieval
Stichwörter dieser Seite Attribut, Feature-Detektor
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.2.3.2: Struktur eines Information-Retrieval-Systems

Die schematische Darstellung eines Informationssystems in Abbildung 10 zeigt nur die Grundstruktur eines Informationssystems. Es kann weitere Wissensbasen enthalten, die dazu dienen, die Kommunikation im oben beschriebenen Sinne zu unterstützen. Sie können z.B. dazu dienen, die Repräsentation der Objekte oder des Informationsbedarfs zu konstruieren, indem sie Weltwissen über die Domäne, in der das Informationssystem arbeitet, enthalten, wie es z.B. häufig in Expertensystemen der Fall ist. Eine Repräsentation kann auch mehrere Repräsentationsformate enthalten, die voneinander abgeleitet werden. (Ein solcher Fall wird im nächsten Abschnitt am Beispiel einer Literaturdatenbank beschrieben.) Dabei gilt aber grundsätzlich, dass die Repräsentationen die Objekte so gut beschreiben müssen, dass sie unterschieden werden können, wenn das nötig ist.

Beispiel: Boolesches Retrieval in Literaturdatenbanken

Als Beispiel kann man herkömmliche Literaturdatenbanken betrachten. Sie enthalten Angaben über Artikel und Bücher, wie sie in Abbildung 1 dargestellt sind, nicht aber die Artikel und Bücher selbst. Die Repräsentation der Objekte, also der Artikel, wird hier zunächst durch menschliche Indexierende erzeugt, die die Artikel lesen und die bibliografischen Angaben, Titel und Abstract sowie Einordnungen in ein Klassifikationssystem zu einem Dokument zusammenstellen, das dann in der Datenbank abgelegt wird.

Soll nun eine Anfrage an das System gestellt werden, so muss der oder die Anfragende ihren Informationsbedarf in eine bestimmte Form bringen, die vom System bearbeitet werden kann. Im Beispiel aus Abschnitt 1.1.4 war das zunächst die boolesche Anfrage retrieval systems AND multimedia AND images. Aufgabe des Systems ist es jetzt, alle zu dieser Anfrage "passenden" Dokumente zu finden. Dazu werden die von den Indexierenden erstellten Dokumente in Wörter zerlegt und es findet ein Abgleich statt. Die Repräsentation der Artikel durch Dokumente wird also nicht direkt genutzt, um den Vergleich zwischen Anfrage und Dokumenten durchzuführen, sondern aus den Dokumenten werden noch einmal vereinfachte Repräsentationen gemacht, die dann mit der Anfrage verglichen werden. Dieser Vorgang ist in Abbildung 11 dargestellt.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 11: Schematische Darstellung eines booleschen Information-Retrieval-Systems für Texte

Wie beim booleschen Retrieval werden in fast allen IR-Systemen die Dokumente intern nochmals vereinfacht repräsentiert. Diese Vereinfachung ist nicht nur technisch bedingt, sondern gleichzeitig auch eine Art Verallgemeinerung des Inhalts der Dokumente, die notwendig ist, um erfolgreich suchen zu können: Wenn zum Suchen immer eine vollständige Beschreibung des Inhalts gegeben werden müsste, wäre die Suche häufig überflüssig. Eines der Hauptthemen der IR-Forschung ist die Entwicklung und der automatische Vergleich von internen Repräsentationsformen und darauf beruhenden Vergleichsverfahren.

Was für Textdokumente gesagt wurde, gilt noch stärker für andere Objekte wie Bilder, Videos oder Tondokumente: Ihre Speicherung in Rechnern erlaubt fast nie einen direkten inhaltlichen Zugang. Um aus einem Pixelmuster zu schließen, ob es sich dabei z.B. um ein Gemälde von Rembrandt, ein aktuelles Foto eines Politikers oder um eine Bierreklame handelt, sind Verfahren notwendig, die aus den gespeicherten Daten charakteristische Kenngrößen bestimmen, die eine solche Unterscheidung ermöglichen. Auf solche Attribute oder Feature-Detektoren können dann prinzipiell auch die Verfahren angewendet werden, die hier für die Textsuche vorgestellt werden. Wie weit diese Verfahren dann erfolgreich sind, muss allerdings empirisch untersucht werden. Ihre Entwicklung ist gegenwärtig Thema der Forschung und dürfte es auch noch eine ganze Weile bleiben. Auf Suchverfahren für andere Objekte als Texte wird im Folgenden nicht weiter eingegangen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Grundlagen -> Information Retrieval
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.2.3.2Struktur eines Information-Retrieval-Systems
Abb. 11 Schematische Darstellung eines booleschen Information-Retrieval-Systems für Texte
Attribut, Feature-Detektor Attribut, Feature-Detektor

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.