Bei Kuhlen (1990) und Fuhr (1997) finden sich aufeinander aufbauende Definitionen der Begriffe Daten, Wissen und Information: Als Daten werden danach Einträge bezeichnet, deren Typ oder syntaktische Struktur bekannt ist. Ist weiter eine Semantik gegeben, ist also bekannt, was in einem Eintrag steht, bzw. welche Eigenschaft eines Objektes er repräsentiert, spricht man von Wissen. In diesem Sinne enthalten Datenbanken Wissen, soweit mit dem Schema der Datenbank die semantische Interpretation der Einträge festgelegt ist. Information wird in dieser Definition schließlich an die Nutzung in einer konkrete Situation gebunden. Sie ist nach Kuhlen " ... die Teilmenge von Wissen, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird. " Das heißt, dass Wissen dadurch zu Information wird, dass es zu einem bestimmten Zeitpunkt in einer bestimmten Situation benötigt wird.
Nach dieser Definition bezeichnet man z. B. ein Record aus zwei Textstrings und zwei Integerzahlen als Daten; falls es sich bei den beiden Strings um Vor- und Nachnamen einer Person und bei den Integerzahlen um Vorwahl und Telefonnummer handelt, liegt Wissen vor. Benötigt jemand schließlich die Telefonnummer der Person, so handelt es sich bei der Auskunft um eine Information.
[ -> mehr dazu]
[ -> mehr dazu]
[ -> mehr dazu]
Auf der Daten- bzw. Syntaxebene tritt Heterogenität in Form von unterschiedlichen Zeichensätzen, Zahldarstellungen, "Druck"formaten (wie ASCII, Latex, Postscript, ...), Bildformaten (wie GIF, TIFF, JPEG, Vektorgraphik, ..) oder Tonformaten (wie waf, midi, ...) auf.
Auf der Wissens- bzw. Semantikebene kann man beispielsweise unterschiedliche Sprachen, Stile und Darstellungsweisen beobachten. Bei Systematiken zur Wissensrepräsentation können unterschiedliche Klassifikationen, Thesauren oder Formate in Literaturdatenbanken ebenso auftreten wie Repräsentationsformate aus der Computeralgebra, dem CAD/CAM Bereich oder der Chemie.
Die Nutzung von Wissen schließlich kann sich auf einer Vielzahl von Dimensionen unterscheiden. Zunächst können unterschiedliche Nutzungs- bzw. Zielgruppen oder Zielsetzungen eines Informationsvorgangs betrachtet werden, sowie unterschiedliche Erwartungen an Qualität, Format und Ausführlichkeit einer Information. Weiter können sich Informationsvorgänge darin unterscheiden, wieviel Aufwand an Arbeit, Kosten und Zeit die Nutzenden investieren wollen oder können und über welche Erfahrungen mit dem Informationssystem sie verfügen. Schließlich kann es große Unterschiede bei Zugangsmöglichkeiten wie Übertragungsbandbreiten und verwendeter Hard- und Software geben.
[ -> mehr dazu]
Man kann allgemein drei Ansätze unterscheiden, wie die Probleme, die sich für die Informationssuche aus der Heterogenität ergeben, angegangen werden.
Zunächst kann man spezielle Beschreibungsformate festlegen, die zur Daten- und Wissensrepräsentation genutzt werden müssen. Dazu wurden z. B. Klassifikationen, Thesauren und Standards wie Austauschformate entwickelt. Sie haben den Vorteil, eindeutig und in diesem Sinne gut handhabbar zu sein. Allerdings müssen die Beschreibungen in diesen Systemen meistens von Menschen erzeugt werden. Diese Methoden erfordern daher viel intellektuelle bzw. manuelle Arbeit und sind deshalb in der Regel sehr teuer. Zudem wird eine Beschreibung zum Zeitpunkt der Indexierung festgelegt, die später in der Regel nur durch eine erneute Indexierung an aktuelle Entwicklungen angepasst werden kann. Schließlich müssen Nutzende in der (richtigen) Anwendung solcher Systeme geschult werden. Diese Verfahren sind damit auf Dokumente oder Objekte beschränkt, für die ein entsprechender Aufwand betrieben werden kann und bei deren Nutzenden eine ausreichende Kenntnis des Systems oder die Bereitschaft, sich diese anzueignen, vorausgesetzt werden kann.
[ -> mehr dazu]
In der zweiten Gruppe können Ansätze zusammengefasst werden, die auf den Daten der Objekte selbst arbeiten und versuchen, diese entweder zu einer von Menschen gegebenen inhaltlichen Anfrage oder zu einem Repräsentationssystem - wie einer Klassifikation - in Beziehung zu setzen. Beispiele solcher Ansätze sind Freitextsuche bzw. automatische Inhaltserschließung aus Texten oder automatische Bilderkennung bzw. der automatische Vergleich von Bildern. Diese Ansätze haben den Vorteil, dass keine aufwändige intellektuelle Erfassung nötig ist. Außerdem wird die Inhaltserschließung in der Regel zum Zeitpunkt der Suche durchgeführt (oder kann dann ohne großen Aufwand wiederholt werden) und kann damit an aktuelle Entwicklungen angepasst werden. Da algorithmisch vorgegangen wird, sind die Suchvorgänge replizierbar (wenn keine "lernenden" Algorithmen verwendet werden). Die Verfahren sind allerdings häufig ziemlich rechenaufwändig und im Vergleich zur Inhaltserschließung durch Menschen z. T. wenig leistungsfähig. Das gilt insbesondere für Suchverfahren, die nicht auf Texten arbeiten.
In einer letzten Gruppe lassen sich die Ansätze zusammenfassen, die versuchen die Nutzung bzw. Informationsverarbeitung durch Menschen zu simulieren und sich dabei auf große Beispielsammlungen oder Korpora stützen, wie korpusbasierte Lernverfahren (induktives Lernen), Data Mining / Wissensextraktionsverfahren und Social Filtering. Diese Verfahren haben den Vorteil, dass sie weitgehend automatisierbar sind und (wenn einmal entwickelt) schnell an neue bzw. spezifische Fachgebiete angepasst werden können. Sie kommen häufig mit verhältnismäßig einfachen Datenstrukturen aus, liefern in der Regel allerdings auch nur die zentrale Tendenz (also den Mainstream) einer Beispielsammlung. Sie sind bisher noch ziemlich rechenaufwändig und in der Leistungsfähigkeit beschränkt. Bei Systemen, die Nutzerverhalten auswerten, muss die Privatsphäre der Nutzenden respektiert werden.
Das größte und zur Zeit wichtigste heterogene Wissensnetz ist sicherlich das WWW (Web). Es zeichnet sich dadurch aus, dass es sehr verteilt und dezentral organisiert und gleichzeitig sehr dynamisch ist. Es tummeln sich viele Beteiligte aus unterschiedlichen Gruppen, gleichzeitig gibt es sehr starke (kommerzielle) Interessengruppen. Die wissenschaftliche Anwendung ist längst in der Minderheit. Im W3Consortium wird versucht, eine offene und konsensuale Weiterentwicklung zwischen den großen Interessengruppen auszuhandeln. Trotzdem wird die Entwicklung auch stark über die Akzeptanz neuer Features durch die Nutzenden bestimmt (wobei diese Akzeptanz durchaus durch Marktmacht gesteuert wird).
Die drei oben beschriebenen Ansätze zum Umgang mit Heterogenität lassen sich auch
im Web beobachten:
Formate vorgeben:
Es gibt verschiedene Anbieter, die Webangebote nach einer hierarchischen
Kategorisierung strukturiert anbieten (Yahoo! ...).
Auch die meisten
Linkpages auf denen Verweise auf andere Angebote zusammengestellt werden, sind nach
einem Schema strukturiert. Austauschformate wie MARC oder bib1 sind ebenfalls vorgegebene
Formate.
Inhaltserschließung:
Wortbasierte Suchmaschinen wie AltaVista, HotBot, Lycos, ...
setzen auf den Wörtern als Zeichenketten auf, die sie in den Seiten finden.
Social Filtering / Lernverfahren / Data Mining:
Empfehlungssysteme wie das Newsgroup System GroupLens, der Filmdienst
Firefly oder beim Buchanbieter Amazon.com nutzen
(vermutlich) die Beurteilungen anderer Nutzer, um Vorschläge zu machen.
Assoziative Thesauren können aus großen Textkorpora gewonnen werden. Liegen zusätzlich
Indexierungen oder Übersetzungen vor, können korpusbasierte
Kookurrenzsysteme auch zur automatischen
Indexierung oder zum cross language retrieval genutzt werden.
Viele Anwendungssysteme kombinieren Methoden aus den drei Bereichen,
um Suchergebnisse zu verbessern: So können Seiten, die von Hand kategorisiert wurden,
von wortbasierten Suchmaschinen in einer Rangordnung höher eingestuft werden,
wenn die Suchbegriffe in der Beschreibung der Kategorie vorkommen, oder die Freitextsuche
kann auf Dokumente einer Kategorie eingeschränkt werden.
Eine andere Methode, Nutzungsaspekte in das Ranking einer Seite einfließen zu
lassen, besteht darin, die Anzahl der Links, die auf eine Seite zeigen, auszuwerten.
Solche Kombinationen sind aber meistens nur innerhalb eines Systems möglich,
weil die entsprechenden Angaben implizit in den Systemen gespeichert sind.
Um sie allgemeiner nutzbar zu machen, wurde das Konzept der Metadaten entwickelt.
Metadaten dienen zur expliziten Beschreibung von Dokumenten und
Objekten entweder im Dokument selbst oder in getrennten Sammlungen.
Die Beschreibungen können durch Autorinnen und Autoren oder durch
dritte (wie bisher Bibliotheken und Fachinformationszentren) erzeugt
werden. Wichtig dabei ist, dass sie maschinell verarbeitet werden
können. In der Regel sind sie aber auch für Menschen lesbar.
Als Beispiel einer Metadaten Initiative für Web Seiten füge
ich die Darstellung des Dublin Core aus meiner Vorlesung
Informationssysteme
am FB Informatik der
TU Darmstadt im SS 99 an.
Die Bemühungen um eine kontrollierte bzw. standardisierte Wissensorganisation
im Web halten kaum mit dem Wachstum und der stürmischen technischen Entwicklung
mit. Die besten Chancen werden Systemen eingeräumt, die möglichst flexibel sind
und vorhandene Methoden integrieren können.
Wieweit dabei eine klare Strukturierung erreicht werden kann, ist fraglich.
Initiativen wie Dublin Core können dabei versuchen "Islands of Control"
innerhalb des WWW zu bilden.
Ihre Durchsetzungsfähigkeit hängt nicht nur von der technisch / inhaltlichen Qualität
ab, sondern wesentlich auch von den Interessengruppen die dahinter stehen.
Neue Standards wie XML / RDF
bieten bessere Möglichkeiten Metadaten zu verwenden,
wie weit diese Möglichkeiten genutzt werden, ist aber offen. Immerhin war auch
HTML anfangs eine logische Markup-Sprache, mit der wissenschaftliche Berichte
inhaltlich strukturiert werden sollten...
Metadaten
Ausblick
Abschnitt über Dublin Core aus: R. Ferber, Informationssysteme
Aus: http://www.muenster.de/~ferber/ifs/html/book_1.part_5.chapter_7.subdiv1_1.html
Als ersten Schritt hin zur einheitlichen Beschreibung von digitalen Objekten durch Metadaten hat man sich zunächst auf sogenannte Document Like Objects ( DLO) beschränkt. Ein DLO steht für die digitale Form dessen, was man bisher als Dokument kannte. Es wird aber (ganz bewusst) nicht genauer definiert. Überlegungen zur Entwicklung eines Metadatenformats für DLO gehen auf einen Workshop zurück, der 1995 in Dublin, Ohio stattfand (Weibel, Godby, Miller, Daniel 1996 ->), um über Wege zur Beschreibung von Objekten im Internet nachzudenken. Nach diesem Ort ist eine Sammlung von Metadatenelementen als Dublin Core benannt worden, die - wie der Name sagt - einen Kern von Angaben bilden soll, mit dem ein DLO beschrieben werden kann. Ziel der Überlegungen war es, eine Menge von einfachen Elementen zu definieren, deren Namen möglichst intuitiv sind oder durch kurze Definitionen erläutert werden können. Dahinter stand die Überlegung, dass die große Mehrzahl der Webdokumente nicht von Expertinnen und Experten beschrieben werden können, sondern dass die Metadaten durch die Autorinnnen und Autoren zur Verfügung gestellt werden müssen. Die folgenden Elemente sind in Dublin Core vorgesehen:
Neben der Benennung der Elemente wurde noch eine Reihe von Eigenschaften der Elemente bzw. Prinzipien ihres Auftretens in einem Datensatz mit Metadaten festgelegt:
Ein DTD - Entwurf für Dublin Core Metadaten findet sich ebenfalls in Weibel, Godby, Miller, Daniel 1996->. Dort werden über Entities zulässige Schemata (bzw. other) festgelegt und dann Elemente definiert, über deren Attributliste diese Schemata den Daten, die in den Elementen stehen, zugeordnet werden. (Siehe Abbildung 65 ). Dieser Entwurf gibt allerdings nicht unbedingt den aktuellen Stand der Diskussion wider. Durch eine solche DTD können Metadaten strukturiert werden. Sie bilden den Inhalt des Dokuments, das durch die DTD definiert wird, so wie die Einträge einer Literaturdatenbank auch als strukturierte Dokumente aufgefasst werden können.
In anderen Fällen brauchen oder sollen aber die Metadaten nicht nach aussen sichtbar sein. In diesen Fällen könnte man sie als Attributwerte ablegen, wie es z. B. in HTML für Inhaltsbeschreibung und Stichworte mit einem META Tag getan wird.
Nach dem ersten Workshop in Dublin (Ohio) haben weitere Workshops stattgefunden, die sich mit spezifischen Problemen bei der Entwicklung des Formats befasst haben. Dabei hat sich gezeigt, dass die Ansichten über einige der oben aufgeführten Prinzipien durchaus auseinander gehen. Insbesondere bei der Frage, wie weit genaue Formate und ausgearbeitete Strukturen bei den einzelnen Elementen vorgegeben werden sollen, gibt es zwei Positionen: Während die einen vor allem die einfache Anwendbarkeit betonen und deshalb keine komplexen Strukturen einführen wollen, sehen die anderen die Notwendigkeit durch genauere Vorgaben den Nutzen der Beschreibungen zu erhöhen. Insbesondere sollen vorhandene Standards genutzt werden, und nicht hinter sie zurückgefallen werden.
... <!ENTITY % ObjectType.Scheme "NLM | Other"><!ELEMENT ObjectType - - ANY > <!ATTLIST ObjectType Scheme (%ObjectType.Scheme;) #IMPLIED >
<!ENTITY % Relationship.Scheme "URN | URL | LCCN | ISBN | ISSN | SICI | MessageID | FPI | Other" >
<!ENTITY % Relationship.Type "Supersedes | Continues | Continued.From | Contained.In | Superseded.By | Cites | Extracted.From | Is.Part.Of | Contains | IsIndexOf | IsIndexedBy | GlossaryOf | Predecessor | Successor | IsDerivativeOf | Child | Parent | Sibling" >
<!ELEMENT Relation - - ANY > <!ATTLIST Relation Scheme (%Relationship.Scheme;) #IMPLIED Type (%Relationship.Type;) #IMPLIED > ...
Fuhr, Norbert (1997): Information Retrieval Universität Dortmund http://ls6-www.informatik.uni-dortmund.de/teaching/courses/ir (Skriptum zur Vorlesung)