![]() |
![]() |
![]() |
![]() |
In gewisser Weise bilden Thesauren das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen. Ihr Schwerpunkt liegt allerdings mehr auf der Erfassung von Wörtern, Termen und Ausdrücken eines Sachgebiets und auf der Beschreibung der Beziehungen zwischen diesen Ausdrücken, weniger auf der disjunkten Klassifikation von Objekten. Sie haben also vor allem zwei Funktionen:
Nach DIN 1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Beziehungen (zitiert nach Fuhr 1995). Man sollte dabei allerdings zwischen allgemeinen Thesauren und den in einem IR System verwendeten Thesauren unterscheiden.
Ein allgemeiner Thesaurus listet zu jedem Wort, neben einer kurzen Definition des Begriffs, verschiedene Relationen zu Gruppen von anderen Wörtern auf:
Im Gegensatz dazu steht bei den meisten Thesauren in IR-Systemen die Beschreibung eines Wissensgebiets und die möglichst eindeutige Auszeichnung der Dokumente einer Datenbank zu diesem Gebiet im Vordergrund. Kernstück eines solchen Thesaurus ist ein kontrolliertes Vokabular, mit dem vor allem die Probleme der Synonymie und Polysemie in den Griff bekommen werden sollen. In diesen Kernbestand von für die Indexierung mit dem Thesaurus zugelassenen Ausdrücken werden nur genau ausgewählte Terme aufgenommen, die eine wohldefinierte Bedeutung in dem zu beschreibenden Sachgebiet haben. Die Ausdrücke in diesem kontrollierten Vokabular werden Deskriptoren genannt. Sie können aus einem oder mehreren Wörtern bestehen. Zu einem Deskriptor kann eine Menge von Synonymen angegeben werden, die in der Fachsprache zwar in der gleichen oder einer ähnlichen Bedeutung wie der Deskriptor verwendet werden, bei der Indexierung aber nicht zugelassen sind. Die Definition dieser Synonymmengen legt auch fest, wie genau ein Thesaurus die Details eines Fachgebiets aufschlüsselt. Soll wenig genau unterschieden werden, kann man verwandte Terme zu einer Synonymmenge zusammenfassen, soll dagegen eine sehr detailgenaue Beschreibung ermöglicht werden, dürfen nur Terme mit wirklich gleicher Bedeutung in einer Synonymmenge zusammengefasst werden. In vielen Fällen wird es sogar nötig sein, verschiedene Aspekte eines breit verwendeten Begriffs in verschiedene Thesaurusdeskriptoren aufzuspalten um genügend Spezifität des Thesaurus zu erreichen. In diesen Fällen müssen die spezifischen Bedeutungen durch weitere Definitionen oder Bemerkungen kenntlich gemacht werden.
Für Thesauren gibt es typischerweise zwei Zugangsweisen. Zum einen gibt es eine alphabetische Liste mit den Deskriptoren. In diese Liste werden auch die Terme aus den Synonymmengen aufgenommen. Von ihnen aus wird mit der use-Relation auf die zugelassenen Deskriptoren der entsprechenden Synonymmenge verwiesen. Für Deskriptoren oder Ausdrücke, die aus mehreren Wörtern bestehen, gibt es in der Regel einen sogenannten "Rotated Index", bei dem diese Deskriptoren unter jedem der Wörter alphabetisch zu finden sind.
Zum anderen sind Thesauren durch Oberbegriffs- und Unterbegriffsrelation hierarchisch gegliedert: zu jedem Term ist ein Oberbegriff und eine Reihe spezifischerer Begriffe angegeben, wenn diese im Thesaurus existieren. Durch diese Gliederung kann - wie bei der Klassifikation - eine Baumstruktur erzeugt werden, aus der den Dokumenten Deskriptoren als Indexterme zugeordnet werden können. Im Unterschied zur Klassifikation können einem Dokument aber i. a. mehrere Deskriptoren auch aus dem selben Baum zugeordnet werden.
Die Struktur der Deskriptoren kann weiter kompliziert werden, indem zu einem Begriff mehrere Oberbegriffe zugelassen werden und so Polyhierarchien entstehen können. Das kann sinnvoll sein, wenn verschiedene Kriterien für die Bildung von Ober - und Unterbegriffen verwendet werden. Die Systematik, die durch die Deskriptoren erzeugt wird, ist also allgemeiner als z. B. die Dezimalklassifikation. Das führt zu einer größeren Flexibilität, die allerdings nur genutzt werden kann, wenn die entsprechenden Retrievalwerkzeuge zur Verfügung stehen.
Weiter ermöglicht es die hierarchische Struktur der Deskriptoren, alle Unterbegriffe eines Begriffes bei einer Suche mit einzubeziehen. Wären im Beispiel aus Abbildung _13_ die Terme "Vertebrates" und "Invertebrates" in diesem Sinne als Deskriptoren verwendet worden, so hätten die Tiere als Unterbegriffe einbezogen werden können. Andererseits wären in einem biologischen Sinn aber auch Menschen als Versuchspersonen unter die "Vertebrates" (Wirbeltiere) gefallen. Mit einem Deskriptor "Animal", der Tiere im Gegensatz zu Menschen bezeichnet, hätte man mehr Glück haben können, er wäre aber dann wieder nicht mit den "Vertebrates" und "Invertebrates" kompatibel gewesen. Das Beispiel zeigt in einem einfachen Fall, dass Thesauren selten universell definiert werden können, sondern am besten für verschiedene Fachgebiete jeweils spezifisch angepasst werden. Das führt allerdings dazu, dass Suchende in jedem Fachgebiet zunächst den entsprechenden Thesaurus "lernen" müssen. Dadurch sind sie als intuitive Zugriffstrukturen nur bedingt geeignet.
Bisher wurden Thesauren i. a. "von Hand" erstellt; z. B. in Zusammenhang mit bibliographischen Arbeiten, wie Bibliographien, Bibliotheks- oder Museumskatalogen, Abstractsammlungen und bibliographischen Informationsdiensten, aber auch zur Beschreibung von Wirtschaftsgütern und Produktionsbereichen. Dabei arbeiten meist mehrere Personen oder auch Institutionen zusammen, die mit dem Fachgebiet, für das der Thesaurus konstruiert werden soll, befasst sind. Eine typische Vorgehensweise besteht dabei in folgenden Schritten (vergl. Burkart 1997 [->]):
![]() |
![]() |
![]() |
![]() |