ZURÜCK

3.3.2: Thesauren

In gewisser Weise bilden Thesauren (singular " Thesaurus", plural häufig auch " Thesauri")das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen. Ihr Schwerpunkt liegt allerdings mehr auf der Erfassung von Wörtern, Termen und Ausdrücken eines Sachgebiets und auf der Beschreibung der Beziehungen zwischen diesen Ausdrücken, weniger auf der disjunkten Klassifikation von Objekten. Sie haben also vor allem zwei Funktionen:

Dabei werden nicht nur hierarchische Systeme definiert wie bei der Klassifikation, sondern es können eine Vielzahl von weiteren Beziehungen zwischen Wörtern dargestellt werden.

Nach DIN 1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Beziehungen (zitiert nach Fuhr 1995). Man sollte dabei allerdings zwischen allgemeinen Thesauren und den in einem IR System verwendeten Thesauren unterscheiden.

Ein allgemeiner Thesaurus listet zu jedem Wort, neben einer kurzen Definition des Begriffs, verschiedene Relationen zu Gruppen von anderen Wörtern auf:

Bei mehrdeutigen Wörtern werden diese Gruppen für jede Bedeutung einzeln aufgelistet. Ein klassisches Beispiel eines allgemeinen Thesaurus ist "Roget's Thesaurus" von 1852 [->], in dem die Wörter der englischen Sprache "nach den Ideen, die sie ausdrücken" (übersetzt aus dem Vorwort der Originalausgabe) sortiert sind. Solche Thesauren sollen vor allem dazu dienen, Kreativität und Vielfalt aber auch Präzision bei der Wortwahl zu unterstützen (oder vorzutäuschen). Sie werden teilweise auch von Textverarbeitungsprogrammen angeboten.

ZUGANGAbb. 26: Beispiele von Thesauruseinträgen

Im Gegensatz dazu steht bei den meisten Thesauren in IR-Systemen die Beschreibung eines Wissensgebiets und die möglichst eindeutige Auszeichnung der Dokumente einer Datenbank zu diesem Gebiet im Vordergrund. Kernstück eines solchen Thesaurus ist ein kontrolliertes Vokabular, mit dem vor allem die Probleme der Synonymie und Polysemie in den Griff bekommen werden sollen. In diesen Kernbestand von für die Indexierung mit dem Thesaurus zugelassenen Ausdrücken werden nur sorgfältig ausgewählte Terme aufgenommen, die eine wohldefinierte Bedeutung in dem zu beschreibenden Sachgebiet haben. Die Ausdrücke in diesem kontrollierten Vokabular werden auch Deskriptoren genannt. Sie können aus einem oder mehreren Wörtern bestehen. Zu einem Deskriptor kann eine Menge von Synonymen angegeben werden, die in der Fachsprache zwar in der gleichen oder einer ähnlichen Bedeutung wie der Deskriptor verwendet werden, bei der Indexierung aber nicht zugelassen sind. Die Definition dieser Synonymmengen legt auch fest, wie genau ein Thesaurus die Details eines Fachgebiets aufschlüsselt. Soll wenig genau unterschieden werden, kann man verwandte Terme zu einer Synonymmenge zusammenfassen, soll dagegen eine sehr detailgenaue Beschreibung ermöglicht werden, dürfen nur Terme mit wirklich gleicher Bedeutung in einer Synonymmenge zusammengefasst werden. In vielen Fällen wird es sogar nötig sein, verschiedene Aspekte eines breit verwendeten Begriffs in verschiedene Thesaurusdeskriptoren aufzuspalten, um genügend Spezifität des Thesaurus zu erreichen. In diesen Fällen müssen die spezifischen Bedeutungen durch weitere Definitionen oder Bemerkungen kenntlich gemacht werden.

ZUGANGAbb. 27: Schematische Darstellung der Nutzung eines Thesaurus in einem Text Retrieval System

Für Thesauren gibt es typischerweise zwei Zugangsweisen. Zum einen gibt es eine alphabetische Liste mit den Deskriptoren. In diese Liste werden auch die Terme aus den Synonymmengen aufgenommen. Von ihnen aus wird mit der use-Relation auf den zugelassenen Deskriptor der entsprechenden Synonymmenge verwiesen. Für Deskriptoren oder Ausdrücke die aus mehreren Wörtern bestehen, gibt es in der Regel einen sogenannten "Rotated Index", in dem sie unter jedem der einzelnen Wörter, aus denen sie zusammengesetzt sind, alphabetisch zu verzeichnet sind.

Zum anderen sind Thesauren durch Oberbegriffs- und Unterbegriffsrelation hierarchisch gegliedert: zu jedem Term ist ein Oberbegriff und eine Reihe spezifischerer Begriffe angegeben, wenn diese im Thesaurus existieren. Durch diese Gliederung kann - wie bei der Klassifikation - eine Baumstruktur erzeugt werden, aus der einem Dokument Deskriptoren als Indexterme zugeordnet werden können. Im Unterschied zur Klassifikation können einem Dokument aber i. a. mehrere Deskriptoren auch aus dem selben Baum zugeordnet werden.

Die Struktur der Deskriptoren kann weiter kompliziert werden, indem zu einem Begriff mehrere Oberbegriffe zugelassen werden und so Polyhierarchien entstehen können. Das kann sinnvoll sein, wenn verschiedene Kriterien für die Bildung von Ober - und Unterbegriffen verwendet werden. Die Systematik, die durch die Deskriptoren erzeugt wird, ist also allgemeiner als z. B. die Dezimalklassifikation. Das führt zu einer größeren Flexibilität, die allerdings nur genutzt werden kann, wenn die entsprechenden Retrievalwerkzeuge zur Verfügung stehen.

Weiter ermöglicht es die hierarchische Struktur der Deskriptoren, alle Unterbegriffe eines Begriffes bei einer Suche mit einzubeziehen. Wären im Beispiel aus Abbildung _13_ die Terme "Vertebrates" und "Invertebrates" in diesem Sinne als Deskriptoren verwendet worden, so hätten die Tiere als Unterbegriffe einbezogen werden können. Andererseits wären in einem biologischen Sinn aber auch Menschen als Versuchspersonen unter die "Vertebrates" (Wirbeltiere) gefallen. Mit einem Deskriptor "Animal", der Tiere im Gegensatz zu Menschen bezeichnet, hätte man mehr Glück haben können, er wäre aber dann wieder nicht mit den "Vertebrates" und "Invertebrates" kompatibel gewesen. Das Beispiel zeigt in einem einfachen Fall, dass Thesauren selten universell definiert werden können, sondern am besten für verschiedene Fachgebiete jeweils spezifisch angepasst werden. Das führt allerdings dazu, dass Suchende in jedem Fachgebiet zunächst den entsprechenden Thesaurus "lernen" müssen. Dadurch sind sie als intuitive Zugriffstrukturen nur bedingt geeignet.

Thesauren werden im Allgemeinen "von Hand" also durch eine Person oder mehrere Personen erstellt; das kann z. B. im Zusammenhang mit bibliographischen Arbeiten, wie Bibliographien, Bibliotheks- oder Museumskatalogen, Abstractsammlungen und bibliographischen Informationsdiensten, aber auch zur Beschreibung von Wirtschaftsgütern und Produktionsbereichen im internationalen Handel geschehen. Dabei arbeiten meist mehrere Personen oder auch Institutionen zusammen, die mit dem Fachgebiet, für das der Thesaurus konstruiert werden soll, befasst sind.

Eine typische Vorgehensweise ist in Burkart 1997 [->] beschrieben:

Die manuelle Thesauruserstellung ist aufwändig und damit teuer und auch langsam. Deshalb wurde in letzter Zeit versucht, Thesauren automatisch auf der Basis von großen Textsammlungen, sogenannten Korpora, aus dem entsprechenden Gebiet zu erstellen. Solche automatisch generierten "assoziativen" Thesauren weisen meistens nicht die strenge hierarchische Struktur auf, wie sie für manuell bzw. intellektuell konstruierte Thesauren typisch ist. Sie haben dafür den Vorteil, dass sie billiger, schneller und stärker auf eine Domäne spezialisiert sein können. Zudem kann ihre Struktur klarer auf die Datengrundlage zurückgeführt werden als die der im Laufe vieler Jahre gewachsenen manuellen Thesauren. Ansätze zur automatischen Konstruktion solcher Thesauren werden im Abschnitt 6.1.1 beschrieben.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber