Methoden zur Wissensorganisation in heterogenen Netzen

 

Reginald Ferber



FH Köln / 25. Januar 2000


Inhalt / Plan:

Zusammenfassung
Begriffsdefinition und Problemstellung
Umgang mit Heterogenität
Anwendungen im WWW / Digitale Bibliotheken
Metadaten

Zusammenfassung

Um in der vorgegebenen Zeit einen strukturierten Einblick ins Thema zu geben, werde ich nach eher stichwortartigen Begriffsdefinitionen zunächst kurz den theoretischen Rahmen abstecken, in dem ich Methoden zur Wissensstrukturierung betrachten möchte. Im Anschluss werde ich verschiedene Ebenen und Dimensionen der Heterogenität diskutieren und drei Gruppen von Ansätzen beschreiben, mit denen Probleme, die sich durch Heterogenität beim Informationszugang ergeben, angegangen werden. Schließlich werde ich auf Anwendungen im WEB bzw. in digitalen Bibliotheken eingehen und dabei den Dublin Core Ansatz etwas genauer vorstellen. Für die Darstellung von Dublin Core werde ich die Unterlagen aus meiner Vorlesung "Informationssysteme" (TU Darmstadt, SS 99) verwenden, um einen Eindruck meiner bisherigen Lehrpraxis zu vermitteln. Auf die zahlreichen offen gebliebene Punkte und sonstige Fragen zum Thema soll in der anschließenden Diskussion eingegangen werden.

Begriffsdefinition und Problemstellung

Wissen

Bei Kuhlen (1990) und Fuhr (1997) finden sich aufeinander aufbauende Definitionen der Begriffe Daten, Wissen und Information: Als Daten werden danach Einträge bezeichnet, deren Typ oder syntaktische Struktur bekannt ist. Ist weiter eine Semantik gegeben, ist also bekannt, was in einem Eintrag steht, bzw. welche Eigenschaft eines Objektes er repräsentiert, spricht man von Wissen. In diesem Sinne enthalten Datenbanken Wissen, soweit mit dem Schema der Datenbank die semantische Interpretation der Einträge festgelegt ist. Information wird in dieser Definition schließlich an die Nutzung in einer konkrete Situation gebunden. Sie ist nach Kuhlen " ... die Teilmenge von Wissen, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird. " Das heißt, dass Wissen dadurch zu Information wird, dass es zu einem bestimmten Zeitpunkt in einer bestimmten Situation benötigt wird.

Nach dieser Definition bezeichnet man z. B. ein Record aus zwei Textstrings und zwei Integerzahlen als Daten; falls es sich bei den beiden Strings um Vor- und Nachnamen einer Person und bei den Integerzahlen um Vorwahl und Telefonnummer handelt, liegt Wissen vor. Benötigt jemand schließlich die Telefonnummer der Person, so handelt es sich bei der Auskunft um eine Information.

[ -> mehr dazu]

Wissen nutzen

Wissen wird also durch seinen Gebrauch zur Information. Solange es in Sammlungen vorliegt, kann es aber nur genutzt werden, wenn es Zugangsmechnismen für die Sammlung gibt, die es Personen ermöglichen, das gesuchte Wissen zu finden (und damit zu Information zu machen). Bei der maschinellen Speicherung von Wissen ist dieser Zugang häufig dadurch erschwert, dass Wissen von Menschen und Maschinen sehr unterschiedlich gespeichert und verarbeitet wird.

Wissensrepräsentation

Während Maschinen Wissen (insbesondere Texte) als Folge von Zeichen vollständig und statisch ablegen und in entsprechender Weise darauf zugreifen, scheinen beim Menschen ganz andere Speicher- und Verarbeitungsmechanismen wirksam zu werden. Auf Wissen können Menschen häufig unter verschiedenen Sichten auf verschiedenen Abstraktionsebenen und dafür aber meistens nur unvollständig zugreifen. Häufig kann Wissen in einem Prozess rekonstruiert werden, wenn Teile davon wiedererkannt oder erinnert werden. Es gibt eine Vielzahl unterschiedlicher Reize, die zur Erinnerung beitragen können. Schließlich unterscheidet sich die Leistungsfähigkeit beim Wiedererkennen sehr stark von der bei der Reproduktion. In diesem Sinne ist die Wissensrepräsentation beim Menschen dynamisch.

[ -> mehr dazu]

Informationsübertragung

Auch wenn Mensch und Maschine Wissen ganz unterschiedlich verarbeiten, kann man bei der Übermittlung von Daten oder Wissen von einem Sender zu einem Empfänger allgemeine Beobachtungen machen, die für Menschen und Maschinen gelten: Um Daten, die er von einem Sender erhält, nutzen zu können, muss der Empfänger wissen, was für einen Typ Daten er in welchem Format erhält und sie entsprechend interpretieren. Daten oder Wissen empfangen ist also immer eine Form von Informationsverarbeitung, die Wissen voraussetzt. Wenn das Format der Daten bekannt ist und Redundanzen enthält, können auch Übertragungsfehler erkannt und korrigiert werden. Bei Daten mit Redundanz kann auch aus einer Reihe möglicher Formate das richtige erkannt werden. Die Mechanismen, die dabei wirksam werden, unterscheiden sich allerdings bei Menschen und Maschinen wieder erheblich.

[ -> mehr dazu]

Heterogenität

Heterogenität tritt in verteilten Wissens- bzw. Informationsnetzen auf, wenn unterschiedliche Repräsentationsformate für Daten, Wissen und Nutzung verwendet werden, die teilweise ungenau oder unvollständig spezifiziert sind oder deren "Spezifikation" nur in den Traditionen eines Fachs, den Gepflogenheiten einer Nutzendengruppe oder (wenn überhaupt) in den Köpfen der Autoren und Autorinnen "spezifiziert" sind.

Auf der Daten- bzw. Syntaxebene tritt Heterogenität in Form von unterschiedlichen Zeichensätzen, Zahldarstellungen, "Druck"formaten (wie ASCII, Latex, Postscript, ...), Bildformaten (wie GIF, TIFF, JPEG, Vektorgraphik, ..) oder Tonformaten (wie waf, midi, ...) auf.

Auf der Wissens- bzw. Semantikebene kann man beispielsweise unterschiedliche Sprachen, Stile und Darstellungsweisen beobachten. Bei Systematiken zur Wissensrepräsentation können unterschiedliche Klassifikationen, Thesauren oder Formate in Literaturdatenbanken ebenso auftreten wie Repräsentationsformate aus der Computeralgebra, dem CAD/CAM Bereich oder der Chemie.

Die Nutzung von Wissen schließlich kann sich auf einer Vielzahl von Dimensionen unterscheiden. Zunächst können unterschiedliche Nutzungs- bzw. Zielgruppen oder Zielsetzungen eines Informationsvorgangs betrachtet werden, sowie unterschiedliche Erwartungen an Qualität, Format und Ausführlichkeit einer Information. Weiter können sich Informationsvorgänge darin unterscheiden, wieviel Aufwand an Arbeit, Kosten und Zeit die Nutzenden investieren wollen oder können und über welche Erfahrungen mit dem Informationssystem sie verfügen. Schließlich kann es große Unterschiede bei Zugangsmöglichkeiten wie Übertragungsbandbreiten und verwendeter Hard- und Software geben.

[ -> mehr dazu]

Umgang mit Heterogenität

Man kann allgemein drei Ansätze unterscheiden, wie die Probleme, die sich für die Informationssuche aus der Heterogenität ergeben, angegangen werden.

Zunächst kann man spezielle Beschreibungsformate festlegen, die zur Daten- und Wissensrepräsentation genutzt werden müssen. Dazu wurden z. B. Klassifikationen, Thesauren und Standards wie Austauschformate entwickelt. Sie haben den Vorteil, eindeutig und in diesem Sinne gut handhabbar zu sein. Allerdings müssen die Beschreibungen in diesen Systemen meistens von Menschen erzeugt werden. Diese Methoden erfordern daher viel intellektuelle bzw. manuelle Arbeit und sind deshalb in der Regel sehr teuer. Zudem wird eine Beschreibung zum Zeitpunkt der Indexierung festgelegt, die später in der Regel nur durch eine erneute Indexierung an aktuelle Entwicklungen angepasst werden kann. Schließlich müssen Nutzende in der (richtigen) Anwendung solcher Systeme geschult werden. Diese Verfahren sind damit auf Dokumente oder Objekte beschränkt, für die ein entsprechender Aufwand betrieben werden kann und bei deren Nutzenden eine ausreichende Kenntnis des Systems oder die Bereitschaft, sich diese anzueignen, vorausgesetzt werden kann.

[ -> mehr dazu]

In der zweiten Gruppe können Ansätze zusammengefasst werden, die auf den Daten der Objekte selbst arbeiten und versuchen, diese entweder zu einer von Menschen gegebenen inhaltlichen Anfrage oder zu einem Repräsentationssystem - wie einer Klassifikation - in Beziehung zu setzen. Beispiele solcher Ansätze sind Freitextsuche bzw. automatische Inhaltserschließung aus Texten oder automatische Bilderkennung bzw. der automatische Vergleich von Bildern. Diese Ansätze haben den Vorteil, dass keine aufwändige intellektuelle Erfassung nötig ist. Außerdem wird die Inhaltserschließung in der Regel zum Zeitpunkt der Suche durchgeführt (oder kann dann ohne großen Aufwand wiederholt werden) und kann damit an aktuelle Entwicklungen angepasst werden. Da algorithmisch vorgegangen wird, sind die Suchvorgänge replizierbar (wenn keine "lernenden" Algorithmen verwendet werden). Die Verfahren sind allerdings häufig ziemlich rechenaufwändig und im Vergleich zur Inhaltserschließung durch Menschen z. T. wenig leistungsfähig. Das gilt insbesondere für Suchverfahren, die nicht auf Texten arbeiten.

[mehr dazu X X]

In einer letzten Gruppe lassen sich die Ansätze zusammenfassen, die versuchen die Nutzung bzw. Informationsverarbeitung durch Menschen zu simulieren und sich dabei auf große Beispielsammlungen oder Korpora stützen, wie korpusbasierte Lernverfahren (induktives Lernen), Data Mining / Wissensextraktionsverfahren und Social Filtering. Diese Verfahren haben den Vorteil, dass sie weitgehend automatisierbar sind und (wenn einmal entwickelt) schnell an neue bzw. spezifische Fachgebiete angepasst werden können. Sie kommen häufig mit verhältnismäßig einfachen Datenstrukturen aus, liefern in der Regel allerdings auch nur die zentrale Tendenz (also den Mainstream) einer Beispielsammlung. Sie sind bisher noch ziemlich rechenaufwändig und in der Leistungsfähigkeit beschränkt. Bei Systemen, die Nutzerverhalten auswerten, muss die Privatsphäre der Nutzenden respektiert werden.

[mehr dazu X X ]

Anwendungen im WWW / Digitale Bibliotheken

Das größte und zur Zeit wichtigste heterogene Wissensnetz ist sicherlich das WWW (Web). Es zeichnet sich dadurch aus, dass es sehr verteilt und dezentral organisiert und gleichzeitig sehr dynamisch ist. Es tummeln sich viele Beteiligte aus unterschiedlichen Gruppen, gleichzeitig gibt es sehr starke (kommerzielle) Interessengruppen. Die wissenschaftliche Anwendung ist längst in der Minderheit. Im W3Consortium wird versucht, eine offene und konsensuale Weiterentwicklung zwischen den großen Interessengruppen auszuhandeln. Trotzdem wird die Entwicklung auch stark über die Akzeptanz neuer Features durch die Nutzenden bestimmt (wobei diese Akzeptanz durchaus durch Marktmacht gesteuert wird).

Die drei oben beschriebenen Ansätze zum Umgang mit Heterogenität lassen sich auch im Web beobachten:

Formate vorgeben: Es gibt verschiedene Anbieter, die Webangebote nach einer hierarchischen Kategorisierung strukturiert anbieten (Yahoo! ...). Auch die meisten Linkpages auf denen Verweise auf andere Angebote zusammengestellt werden, sind nach einem Schema strukturiert. Austauschformate wie MARC oder bib1 sind ebenfalls vorgegebene Formate.

Inhaltserschließung: Wortbasierte Suchmaschinen wie AltaVista, HotBot, Lycos, ... setzen auf den Wörtern als Zeichenketten auf, die sie in den Seiten finden.

Social Filtering / Lernverfahren / Data Mining: Empfehlungssysteme wie das Newsgroup System GroupLens, der Filmdienst Firefly oder beim Buchanbieter Amazon.com nutzen (vermutlich) die Beurteilungen anderer Nutzer, um Vorschläge zu machen. Assoziative Thesauren können aus großen Textkorpora gewonnen werden. Liegen zusätzlich Indexierungen oder Übersetzungen vor, können korpusbasierte Kookurrenzsysteme auch zur automatischen Indexierung oder zum cross language retrieval genutzt werden.

mehr dazu [ X X ]

Viele Anwendungssysteme kombinieren Methoden aus den drei Bereichen, um Suchergebnisse zu verbessern: So können Seiten, die von Hand kategorisiert wurden, von wortbasierten Suchmaschinen in einer Rangordnung höher eingestuft werden, wenn die Suchbegriffe in der Beschreibung der Kategorie vorkommen, oder die Freitextsuche kann auf Dokumente einer Kategorie eingeschränkt werden. Eine andere Methode, Nutzungsaspekte in das Ranking einer Seite einfließen zu lassen, besteht darin, die Anzahl der Links, die auf eine Seite zeigen, auszuwerten.

Solche Kombinationen sind aber meistens nur innerhalb eines Systems möglich, weil die entsprechenden Angaben implizit in den Systemen gespeichert sind.

Um sie allgemeiner nutzbar zu machen, wurde das Konzept der Metadaten entwickelt.

Metadaten

Metadaten dienen zur expliziten Beschreibung von Dokumenten und Objekten entweder im Dokument selbst oder in getrennten Sammlungen. Die Beschreibungen können durch Autorinnen und Autoren oder durch dritte (wie bisher Bibliotheken und Fachinformationszentren) erzeugt werden. Wichtig dabei ist, dass sie maschinell verarbeitet werden können. In der Regel sind sie aber auch für Menschen lesbar.

Als Beispiel einer Metadaten Initiative für Web Seiten füge ich die Darstellung des Dublin Core aus meiner Vorlesung Informationssysteme am FB Informatik der TU Darmstadt im SS 99 an.

Ausblick

Die Bemühungen um eine kontrollierte bzw. standardisierte Wissensorganisation im Web halten kaum mit dem Wachstum und der stürmischen technischen Entwicklung mit. Die besten Chancen werden Systemen eingeräumt, die möglichst flexibel sind und vorhandene Methoden integrieren können. Wieweit dabei eine klare Strukturierung erreicht werden kann, ist fraglich. Initiativen wie Dublin Core können dabei versuchen "Islands of Control" innerhalb des WWW zu bilden. Ihre Durchsetzungsfähigkeit hängt nicht nur von der technisch / inhaltlichen Qualität ab, sondern wesentlich auch von den Interessengruppen die dahinter stehen.

Neue Standards wie XML / RDF bieten bessere Möglichkeiten Metadaten zu verwenden, wie weit diese Möglichkeiten genutzt werden, ist aber offen. Immerhin war auch HTML anfangs eine logische Markup-Sprache, mit der wissenschaftliche Berichte inhaltlich strukturiert werden sollten...


Abschnitt über Dublin Core aus: R. Ferber, Informationssysteme

Aus: http://www.muenster.de/~ferber/ifs/html/book_1.part_5.chapter_7.subdiv1_1.html

4.7.1: Dublin Core

Als ersten Schritt hin zur einheitlichen Beschreibung von digitalen Objekten durch Metadaten hat man sich zunächst auf sogenannte Document Like Objects ( DLO) beschränkt. Ein DLO steht für die digitale Form dessen, was man bisher als Dokument kannte. Es wird aber (ganz bewusst) nicht genauer definiert. Überlegungen zur Entwicklung eines Metadatenformats für DLO gehen auf einen Workshop zurück, der 1995 in Dublin, Ohio stattfand (Weibel, Godby, Miller, Daniel 1996 ->), um über Wege zur Beschreibung von Objekten im Internet nachzudenken. Nach diesem Ort ist eine Sammlung von Metadatenelementen als Dublin Core benannt worden, die - wie der Name sagt - einen Kern von Angaben bilden soll, mit dem ein DLO beschrieben werden kann. Ziel der Überlegungen war es, eine Menge von einfachen Elementen zu definieren, deren Namen möglichst intuitiv sind oder durch kurze Definitionen erläutert werden können. Dahinter stand die Überlegung, dass die große Mehrzahl der Webdokumente nicht von Expertinnen und Experten beschrieben werden können, sondern dass die Metadaten durch die Autorinnnen und Autoren zur Verfügung gestellt werden müssen. Die folgenden Elemente sind in Dublin Core vorgesehen:

(Eine genauere Beschreibung findet sich in Weibel, Godby, Miller, Daniel 1996 ->, bzw. der Dublin Core Webseite http://purl.oclc.org/metadata/dublin_core/) Man sieht, dass sich viele der Elemente an bibliographischen Daten für "Papierdokumente" orientieren, wobei die möglichen Einträge für digitale Dokumente angepasst sind (Format, Identifier).

Neben der Benennung der Elemente wurde noch eine Reihe von Eigenschaften der Elemente bzw. Prinzipien ihres Auftretens in einem Datensatz mit Metadaten festgelegt:

Durch diese Prinzipien soll Dublin Core klein und flexibel gehalten werden. Gleichzeitig soll es möglich sein, vorhandene Metadatenschemata zu integrieren. Dublin Core hätte damit eine Integrationsfunktion für verschiedene Auszeichnungs- und Metadatenschemata.

Ein DTD - Entwurf für Dublin Core Metadaten findet sich ebenfalls in Weibel, Godby, Miller, Daniel 1996->. Dort werden über Entities zulässige Schemata (bzw. other) festgelegt und dann Elemente definiert, über deren Attributliste diese Schemata den Daten, die in den Elementen stehen, zugeordnet werden. (Siehe Abbildung 65 ). Dieser Entwurf gibt allerdings nicht unbedingt den aktuellen Stand der Diskussion wider. Durch eine solche DTD können Metadaten strukturiert werden. Sie bilden den Inhalt des Dokuments, das durch die DTD definiert wird, so wie die Einträge einer Literaturdatenbank auch als strukturierte Dokumente aufgefasst werden können.

In anderen Fällen brauchen oder sollen aber die Metadaten nicht nach aussen sichtbar sein. In diesen Fällen könnte man sie als Attributwerte ablegen, wie es z. B. in HTML für Inhaltsbeschreibung und Stichworte mit einem META Tag getan wird.

Nach dem ersten Workshop in Dublin (Ohio) haben weitere Workshops stattgefunden, die sich mit spezifischen Problemen bei der Entwicklung des Formats befasst haben. Dabei hat sich gezeigt, dass die Ansichten über einige der oben aufgeführten Prinzipien durchaus auseinander gehen. Insbesondere bei der Frage, wie weit genaue Formate und ausgearbeitete Strukturen bei den einzelnen Elementen vorgegeben werden sollen, gibt es zwei Positionen: Während die einen vor allem die einfache Anwendbarkeit betonen und deshalb keine komplexen Strukturen einführen wollen, sehen die anderen die Notwendigkeit durch genauere Vorgaben den Nutzen der Beschreibungen zu erhöhen. Insbesondere sollen vorhandene Standards genutzt werden, und nicht hinter sie zurückgefallen werden.


© 1999 / HTML-Version 13. 7. 1999: R. Ferber

Abb. 65: SGML Definitionen für Dublin Core Elemente (nach Weibel, Godby, Miller, Daniel 1996 ->)

 ...
<!ENTITY  % ObjectType.Scheme
          "NLM | Other">

<!ELEMENT ObjectType - - ANY > <!ATTLIST ObjectType Scheme (%ObjectType.Scheme;) #IMPLIED >

<!ENTITY % Relationship.Scheme "URN | URL | LCCN | ISBN | ISSN | SICI | MessageID | FPI | Other" >

<!ENTITY % Relationship.Type "Supersedes | Continues | Continued.From | Contained.In | Superseded.By | Cites | Extracted.From | Is.Part.Of | Contains | IsIndexOf | IsIndexedBy | GlossaryOf | Predecessor | Successor | IsDerivativeOf | Child | Parent | Sibling" >

<!ELEMENT Relation - - ANY > <!ATTLIST Relation Scheme (%Relationship.Scheme;) #IMPLIED Type (%Relationship.Type;) #IMPLIED >  ...


© 1999 / HTML-Version 13. 7. 1999: R. Ferber

Fuhr, Norbert (1997): Information Retrieval Universität Dortmund http://ls6-www.informatik.uni-dortmund.de/teaching/courses/ir (Skriptum zur Vorlesung)



Kuhlen, Rainer (1990): Zum Stand pragmatischer Forschung in der Informationswissenschaft In: Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen. Proceedings des 1. Internationalen Symposiums für Informationswissenschaft Konstanz: Universitätsverlag pp: 13-18

Weibel, Stuart and Godby, Jean and Miller, Eric and Daniel, Ron (1996): OCLC / NCSA Metadata Workshop Report Office of Research, OCLC Online Computer Library Center, INC. /// Advanced Computing Lab, Los Alamos National Laboratory http://purl.oclc.org/metadata/dublin_core_report

Diese HTML-Datei wurde am 20. 1. 2000 von R. Ferber erzeugt