1.3.4: Thesauren
In gewisser Weise bilden Thesauren (Singular
Thesaurus,
im Plural häufig auch Thesauri)
das sprachliche oder terminologische Gegenstück zu hierarchischen
Klassifikationssystemen.
Während Klassifikationen Themen oder Objekte inhaltlich ordnen, erfassen
Thesauren Wörter, Terme und Ausdrücke eines Sachgebiets
und beschreiben die Beziehungen zwischen ihnen.
Thesauren haben vor allem zwei Funktionen:
- Sie definieren ein kontrolliertes Vokabular.
- Sie stellen Beziehungen (Relationen) zwischen den Termen dieses
Vokabulars her.
Dabei werden nicht nur hierarchische Systeme definiert wie bei der Klassifikation,
sondern es können eine Vielzahl von weiteren Beziehungen zwischen Wörtern
dargestellt werden. Nach DIN 1463 ist ein Thesaurus eine geordnete Zusammenstellung von
Begriffen mit ihren (natürlich-sprachlichen) Beziehungen.
Man sollte allerdings
zwischen allgemeinen Thesauren und den in einem IR-System verwendeten
Thesauren unterscheiden. Ein allgemeiner
Thesaurus listet zu jedem Wort, neben einer
kurzen Definition des Begriffs, verschiedene Relationen zu Gruppen von
anderen Wörtern auf:
- Synonyme (Wörter mit der gleichen Bedeutung)
- Antonyme (Wörter mit gegensätzlicher Bedeutung)
- verwandte Wörter
- Oberbegriffe
- speziellere Begriffe
Bei mehrdeutigen Wörtern werden diese Gruppen für jede
Bedeutung einzeln aufgelistet. Ein klassisches Beispiel eines allgemeinen Thesaurus
ist Roget's Thesaurus von 1852 [->]
, in dem die
Wörter der englischen Sprache "nach den Ideen, die sie ausdrücken" (übersetzt aus dem Vorwort
der Originalausgabe) sortiert sind. Solche Thesauren sollen vor allem dazu
dienen, Kreativität und Vielfalt, aber auch Präzision bei der Wortwahl zu
unterstützen (oder vorzutäuschen). Viele Textverarbeitungsprogramme bieten
Thesauren als Zusatzfunktion an.
Im Gegensatz dazu stehen bei den meisten Thesauren in
IR-Systemen die Beschreibung
eines Wissensgebiets und die möglichst eindeutige Auszeichnung der
Dokumente einer Sammlung zu diesem Gebiet im Vordergrund.
Kernstück eines solchen Thesaurus ist ein kontrolliertes
Vokabular, mit dem vor allem
die Probleme der Synonymie und Polysemie in den Griff
bekommen werden sollen. In diesen Kernbestand von für die Indexierung mit dem
Thesaurus zugelassenen Ausdrücken werden nur
sorgfältig ausgewählte Terme
aufgenommen, die eine wohl definierte Bedeutung in dem zu
beschreibenden Sachgebiet haben.
Die Ausdrücke in diesem
kontrollierten Vokabular werden auch
Deskriptoren
genannt. Sie können aus einem oder mehreren Wörtern
bestehen. Zu einem Deskriptor kann eine Menge von
Synonymen angegeben werden,
die in der Fachsprache in der gleichen oder einer
ähnlichen Bedeutung wie der Deskriptor verwendet werden,
und deshalb bei der Indexierung nicht zugelassen
sind.
Die Definition dieser Synonymmengen legt auch fest, wie
genau ein Thesaurus die Details eines Fachgebiets aufschlüsselt.
Soll wenig genau unterschieden werden, kann man verwandte
Terme zu einer Synonymmenge zusammenfassen. Soll dagegen eine
sehr detailgenaue Beschreibung ermöglicht werden, dürfen nur Terme
mit wirklich gleicher Bedeutung in einer Synonymmenge zusammengefasst
werden. In vielen Fällen wird es sogar
nötig sein, verschiedene Aspekte eines breit
verwendeten Begriffs in verschiedene Thesaurusdeskriptoren
aufzuspalten, um genügend Spezifität des Thesaurus zu erreichen.
In diesen Fällen müssen die spezifischen Bedeutungen durch weitere
Definitionen oder Bemerkungen kenntlich gemacht werden.
Für Thesauren gibt es typischerweise zwei Zugangsweisen. Zum einen gibt es eine
alphabetische Liste mit den Deskriptoren. In diese Liste werden
auch die Terme aus den Synonymmengen aufgenommen. Von ihnen aus wird mit
der USE-Relation auf den zugelassenen
Deskriptor der entsprechenden Synonymmenge
verwiesen. Für Deskriptoren oder Ausdrücke, die aus mehreren Wörtern bestehen, gibt es in der
Regel einen so genannten Rotated Index, in dem sie unter jedem der einzelnen
Wörter, aus denen sie zusammengesetzt sind, alphabetisch
verzeichnet sind.
Zum anderen sind Thesauren durch Oberbegriffs- und
Unterbegriffsrelation hierarchisch gegliedert: Zu jedem Term sind
ein Oberbegriff und eine Reihe spezifischerer Begriffe
angegeben, wenn diese im Thesaurus existieren.
Durch diese Relationen kann ein
Thesaurus - wie eine Klassifikation - als hierarchischer
Graph gesehen werden. Sind die Ober- und Unterbegriffsrelationen
entsprechend streng definiert, kann sich so auch ein Baum ergeben.
Die Struktur der Deskriptoren kann weiter kompliziert
werden, indem zu einem Begriff mehrere Oberbegriffe zugelassen werden
und so Polyhierarchien entstehen können. Das kann sinnvoll sein,
wenn verschiedene Kriterien für die Bildung von Ober- und
Unterbegriffen verwendet werden. Die Systematik, die durch die
Deskriptoren erzeugt wird, ist demnach allgemeiner als z.B. die
Dezimalklassifikation. Das führt zu einer größeren
Flexibilität, die allerdings nur genutzt werden kann, wenn die
entsprechenden Retrieval-Werkzeuge zur Verfügung stehen.
Weiter ermöglicht es die hierarchische Struktur der
Deskriptoren, alle Unterbegriffe eines Begriffs bei einer Suche mit
einzubeziehen. Wären im Beispiel aus Abbildung 13
die Terme
Vertebrates und Invertebrates in diesem
Sinne als Deskriptoren verwendet worden, hätten die Tiere als
Unterbegriffe einbezogen werden können. Andererseits fallen in
einem biologischen Sinn auch Menschen unter
die Vertebrates (Wirbeltiere). Mit einem
Deskriptor Animal, der (Versuchs-)Tiere im Gegensatz zu Menschen
(als Versuchspersonen) bezeichnet, hätte man mehr Glück haben können. Er
wäre aber nicht mit den Vertebrates und
Invertebrates kompatibel gewesen.
Das Beispiel zeigt in
einem einfachen Fall, dass Thesauren selten universell definiert werden
können, sondern am besten für verschiedene Fachgebiete jeweils
spezifisch angepasst werden. Das führt allerdings dazu, dass sich
Suchende in jedem Fachgebiet zunächst den entsprechenden Thesaurus
aneignen müssen. Dadurch sind Thesauren als intuitive
Zugriffsstrukturen nur bedingt geeignet.
Konstruktion eines Thesaurus
Thesauren werden im Allgemeinen "von Hand", also von Menschen
erstellt; das kann z.B. im
Zusammenhang mit bibliografischen Arbeiten wie Bibliografien,
Bibliotheks- oder Museumskatalogen, Abstract-Sammlungen und
bibliografischen Informationsdiensten, aber auch zur Beschreibung von
Wirtschaftsgütern und Produktionsbereichen im internationalen
Handel geschehen. Dabei arbeiten meist mehrere Personen oder
auch Institutionen zusammen, die
mit dem Fachgebiet, für das der Thesaurus konstruiert werden soll,
befasst sind.
Eine typische Vorgehensweise bei der Erstellung eines Thesaurus ist in
Burkart (1997) [->]
beschrieben:
- Zunächst wird der
Bezugsrahmen
eingegrenzt.
Dabei werden die Thematik, die Spezifität, der Sprachstil und der Umfang des Thesaurus festgelegt.
- Dann werden Quellen
ausgewählt, aus denen Wörter entnommen werden sollen. Das können
potenzielle Nutzende und Expertinnen, Fachwörterbücher,
aktuelle Literatur, Lehrbücher, bereits vorhandene Thesauren und Bezeichnungslisten
oder Indexierungsexperimente mit relevanten Dokumenten
sein. Die so gefundenen Wörter werden auf eine geeignete
Grundform zurückgeführt.
- Dieses Vokabular wird dann der so genannten
terminologischen Kontrolle unterworfen. Dadurch
sollen die Unschärfen der natürlichen Sprache
beseitigt und die Terme in Synonymmengen aufgeteilt werden.
Dabei unterscheidet man verschiedene Kontrollläufe:
- Bei der Synonymkontrolle
werden unterschiedliche Schreibweisen, Abkürzungen und Vollformen,
verschiedene Sprachstile wie Fremdwortgebrauch und regionale Unterschiede, aber auch
aufgrund der angestrebten Spezifität nicht zu unterscheidende Wörter
zusammengefasst.
- Die Polysemkontrolle
unterscheidet Wörter, die zwar gleich
geschrieben werden, aber mehrere unterschiedliche Bedeutungen haben, und
ordnet sie unterschiedlichen Synonymmengen bzw. Deskriptoren zu.
Dabei können eindeutige Synonyme der Polyseme verwendet
werden, oder die Bedeutung kann durch nachgestellte Qualifikatoren oder
kurze Beschreibungen (so genannte
Scope Notes) klargestellt werden.
- Bei der
Zerlegungskontrolle werden
Komposita gegebenenfalls in ihre Bestandteile zerlegt. Das
kann notwendig sein, um die richtige Spezifität eines
Begriffs zu erhalten.
- Im letzen Schritt, der
begrifflichen Kontrolle, werden die
konstruierten Äquivalenzklassen
durch Relationen miteinander in Beziehung gesetzt.
Wichtig sind vor allem die hierarchischen Relationen,
die als Abstraktions- oder generische Relation (Oberbegriff, spezifischerer Begriff)
oder als Bestand(teil)srelation auftreten können. Eine weitere Relation ist die
Assoziationsrelation, die zwischen verwandten
Äquivalenzklassen bestehen
kann, zwischen denen keine hierarchische Relation besteht.
Die manuelle Thesauruserstellung ist aufwändig und damit
teuer und auch langsam. Deshalb wurde in letzter Zeit
versucht, Thesauren automatisch auf der Basis von
großen Textsammlungen, so genannten
Korpora, aus dem entsprechenden Gebiet zu erstellen.
Solche automatisch generierten assoziativen Thesauren
weisen meistens nicht die
streng hierarchische Struktur auf, wie sie für manuell bzw. intellektuell konstruierte Thesauren typisch
ist. Sie haben dafür den Vorteil, dass sie billiger, schneller und stärker auf eine
Domäne spezialisiert sein können. Zudem kann ihre
Struktur klarer auf die Datengrundlage zurückgeführt werden als die der im Laufe vieler
Jahre gewachsenen manuellen Thesauren.
Ansätze zur automatischen Konstruktion solcher Thesauren werden in
Abschnitt 3.5.1
beschrieben.
|