Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Grundlagen -> Information Retrieval
Stichwörter dieser Seite Daten, Record, Wissen, Information
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.2.3.1: Daten, Wissen, Information

Bisher wurden die Begriffe Daten, Wissen und Information weitgehend unsystematisch und intuitiv gebraucht. Dieser unterschiedliche Wortgebrauch zieht sich auch durch die Literatur zum Information Retrieval. Auch wenn im Folgenden zwei verschiedene Ansätze zu Definitionen gegeben werden, werde ich mich in den weiteren Kapiteln nicht immer an diese Definitionen halten, sondern oft den allgemein üblichen unscharfen Sprachgebrauch verwenden. Durch die folgende Darstellung soll vor allem gezeigt werden, dass es unterschiedliche Konzepte und Definitionen gibt, und dass man sich bei der Lektüre von Artikeln gegebenenfalls klar machen muss, welche Begriffe verwendet werden.

Der Begriff Information wird in vielen verschiedenen Disziplinen und Teilgebieten unterschiedlich (wenn überhaupt) definiert. Neben eher pragmatischen Ad-hoc-Definitionen gibt es auch Versuche, die Sache grundsätzlich anzugehen. Ein solcher Versuch ist in einem Artikel von R. Losee (1997) [->] nachzulesen. Er weist zunächst darauf hin, dass Information im Allgemeinen als etwas angesehen wird, das neu, richtig oder wahr ist und von etwas handelt. Er schlägt als Verallgemeinerung dieser Beobachtung vor, in allen Disziplinen Information als die Eigenschaften des Ergebnisses eines Prozesses zu definieren, die Rückschlüsse auf den Input des Prozesses zulassen. Diese Definition lässt sich gut am Diagramm aus Abbildung 8 veranschaulichen: Aus der Perspektive des Empfängers soll auf den Input des Senders rückgeschlossen werden. Diese Sichtweise macht besonders deutlich, dass Information immer bis zu einem gewissen Grad bereits vorhandenes Wissen voraussetzt: Ohne solches Wissen kann das Ergebnis des Übertragungskanals nur so akzeptiert werden, wie es vorgefunden wird. Jede Plausibilitätsprüfung setzt Wissen über die zu erwartende Struktur voraus. Praktisch lässt sich das wieder beim Lesen eines Texts veranschaulichen: Bei einem Schreibfehler nehmen Lesende an, dass beim Schreiben des Textes das "richtige" Wort gemeint war. Dieser Rückschluss setzt natürlich erhebliche Kenntnisse über die Sprache, in der der Text abgefasst ist, und das Themengebiet des Textes voraus.

Wie das Beispiel zeigt, ist es nicht so schwierig, ein gegebenes Modell oder eine speziellere Definition auf diese allgemeine Definition zurückzuführen. Es stellt sich aber die Frage, ob aus der allgemeinen Definition nützliche allgemeingültige Folgerungen abgeleitet werden können.

Deshalb ist es häufig sinnvoll, eine engere Definition zu wählen. Im Folgenden werden Definitionen der drei Begriffe Daten, Wissen und Information gegeben, wie sie bei Fuhr (1997) [->] zu finden sind. Als Daten werden demnach Einträge bezeichnet, deren Typ oder syntaktische Struktur bekannt ist. Das kann z.B. eine Bitfolge sein, die als Liste von Integerzahlen zu interpretieren ist, oder ein Record aus verschiedenen Datentypen. Ist für Daten bekannt, was sie beschreiben oder welche Eigenschaften eines Objekts sie repräsentieren, ist also eine semantische Struktur gegeben, spricht man von Wissen. Stellt die Folge von Integerzahlen z.B. die Anzahl der Zuhörenden verschiedener Vorlesungen dar, handelt es sich nach der Definition um Wissen über diese Anzahlen. In diesem Sinne enthalten Datenbanken Wissen, soweit mit dem Schema der Datenbank die semantische Interpretation der Einträge festgelegt ist. Information wird in dieser Definition schließlich an eine konkrete Situation gebunden. Sie ist, wie Fuhr Kuhlen (1990) [->] zitiert, "... die Teilmenge von Wissen, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird." Das heißt, dass Wissen dadurch zu Information wird, dass es zu einem bestimmten Zeitpunkt in einer bestimmten Situation benötigt wird.

Um diese Unterscheidung an einem weiteren Beispiel darzustellen, kann man eine Sammlung von Records, die aus je zwei Textstrings der Länge 255 und einem Feld mit drei Integerzahlen bestehen, betrachten. Bei Einträgen mit einer solchen Record-Struktur spricht man von Daten. Ist bekannt, dass die ersten beiden Textfelder jedes Records als Namen einer bestimmten Person zu interpretieren sind und das Zahlenfeld als deren Geburtsdatum, handelt es sich um eine Wissenssammlung. Wird schließlich aus dieser Wissenssammlung das Geburtsdatum einer Person herausgesucht, so ist das Ergebnis im Sinne der obigen Definition eine Information.

Wird diese Definition auf die Struktur eines Informationssystems aus Abbildung 10 angewendet, stellt die Repräsentation der Objekte eine Wissenssammlung dar. Das Informationssystem macht aus diesem Wissen Information, indem es einen spezifischen Informationsbedarf bedient.

Andere Definitionen verwenden die Wörter "Information" und "Wissen" genau umgekehrt: Als Information werden semantisch interpretierte Daten bezeichnet. Zu Wissen werden diese Informationen, wenn Menschen sie wahrnehmen, verarbeiten und reproduzieren oder nutzen können. Es zeigt sich also, dass es sich empfiehlt, diese Begriffe jeweils im Kontext, in dem sie verwendet werden, zu interpretieren und nicht von einer einheitlichen Verwendung auszugehen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Grundlagen -> Information Retrieval
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.2.3.1Daten, Wissen, Information
Daten, Record, Wissen, Information Daten, Information, Record, Wissen

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.