Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren
Stichwörter dieser Seite Thesaurus, kontrolliertes Vokabular, Relation, allgemeiner Thesaurus, Roget's Thesaurus, Thesauren in IR-Systemen, kontrolliertes Vokabular, Deskriptor, Synonym, Synonymmenge, Rotated Index, Bibliografie, Bezugsrahmen, terminologische Kontrolle, Synonymkontrolle, Polysemkontrolle, Scope Note, Zerlegungskontrolle, begriffliche Kontrolle, assoziativer Thesaurus
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.4: Thesauren

In gewisser Weise bilden Thesauren (Singular Thesaurus, im Plural häufig auch Thesauri) das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen. Während Klassifikationen Themen oder Objekte inhaltlich ordnen, erfassen Thesauren Wörter, Terme und Ausdrücke eines Sachgebiets und beschreiben die Beziehungen zwischen ihnen. Thesauren haben vor allem zwei Funktionen:

  • Sie definieren ein kontrolliertes Vokabular.
  • Sie stellen Beziehungen (Relationen) zwischen den Termen dieses Vokabulars her.
Dabei werden nicht nur hierarchische Systeme definiert wie bei der Klassifikation, sondern es können eine Vielzahl von weiteren Beziehungen zwischen Wörtern dargestellt werden. Nach DIN 1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlich-sprachlichen) Beziehungen.

Man sollte allerdings zwischen allgemeinen Thesauren und den in einem IR-System verwendeten Thesauren unterscheiden. Ein allgemeiner Thesaurus listet zu jedem Wort, neben einer kurzen Definition des Begriffs, verschiedene Relationen zu Gruppen von anderen Wörtern auf:

  • Synonyme (Wörter mit der gleichen Bedeutung)
  • Antonyme (Wörter mit gegensätzlicher Bedeutung)
  • verwandte Wörter
  • Oberbegriffe
  • speziellere Begriffe
Bei mehrdeutigen Wörtern werden diese Gruppen für jede Bedeutung einzeln aufgelistet. Ein klassisches Beispiel eines allgemeinen Thesaurus ist Roget's Thesaurus von 1852 [->] , in dem die Wörter der englischen Sprache "nach den Ideen, die sie ausdrücken" (übersetzt aus dem Vorwort der Originalausgabe) sortiert sind. Solche Thesauren sollen vor allem dazu dienen, Kreativität und Vielfalt, aber auch Präzision bei der Wortwahl zu unterstützen (oder vorzutäuschen). Viele Textverarbeitungsprogramme bieten Thesauren als Zusatzfunktion an.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 26: Beispiele von Thesauruseinträgen

Im Gegensatz dazu stehen bei den meisten Thesauren in IR-Systemen die Beschreibung eines Wissensgebiets und die möglichst eindeutige Auszeichnung der Dokumente einer Sammlung zu diesem Gebiet im Vordergrund. Kernstück eines solchen Thesaurus ist ein kontrolliertes Vokabular, mit dem vor allem die Probleme der Synonymie und Polysemie in den Griff bekommen werden sollen. In diesen Kernbestand von für die Indexierung mit dem Thesaurus zugelassenen Ausdrücken werden nur sorgfältig ausgewählte Terme aufgenommen, die eine wohl definierte Bedeutung in dem zu beschreibenden Sachgebiet haben.

Die Ausdrücke in diesem kontrollierten Vokabular werden auch Deskriptoren genannt. Sie können aus einem oder mehreren Wörtern bestehen. Zu einem Deskriptor kann eine Menge von Synonymen angegeben werden, die in der Fachsprache in der gleichen oder einer ähnlichen Bedeutung wie der Deskriptor verwendet werden, und deshalb bei der Indexierung nicht zugelassen sind.

Die Definition dieser Synonymmengen legt auch fest, wie genau ein Thesaurus die Details eines Fachgebiets aufschlüsselt. Soll wenig genau unterschieden werden, kann man verwandte Terme zu einer Synonymmenge zusammenfassen. Soll dagegen eine sehr detailgenaue Beschreibung ermöglicht werden, dürfen nur Terme mit wirklich gleicher Bedeutung in einer Synonymmenge zusammengefasst werden. In vielen Fällen wird es sogar nötig sein, verschiedene Aspekte eines breit verwendeten Begriffs in verschiedene Thesaurusdeskriptoren aufzuspalten, um genügend Spezifität des Thesaurus zu erreichen. In diesen Fällen müssen die spezifischen Bedeutungen durch weitere Definitionen oder Bemerkungen kenntlich gemacht werden.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 27: Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System

Für Thesauren gibt es typischerweise zwei Zugangsweisen. Zum einen gibt es eine alphabetische Liste mit den Deskriptoren. In diese Liste werden auch die Terme aus den Synonymmengen aufgenommen. Von ihnen aus wird mit der USE-Relation auf den zugelassenen Deskriptor der entsprechenden Synonymmenge verwiesen. Für Deskriptoren oder Ausdrücke, die aus mehreren Wörtern bestehen, gibt es in der Regel einen so genannten Rotated Index, in dem sie unter jedem der einzelnen Wörter, aus denen sie zusammengesetzt sind, alphabetisch verzeichnet sind.

Zum anderen sind Thesauren durch Oberbegriffs- und Unterbegriffsrelation hierarchisch gegliedert: Zu jedem Term sind ein Oberbegriff und eine Reihe spezifischerer Begriffe angegeben, wenn diese im Thesaurus existieren. Durch diese Relationen kann ein Thesaurus - wie eine Klassifikation - als hierarchischer Graph gesehen werden. Sind die Ober- und Unterbegriffsrelationen entsprechend streng definiert, kann sich so auch ein Baum ergeben.

Die Struktur der Deskriptoren kann weiter kompliziert werden, indem zu einem Begriff mehrere Oberbegriffe zugelassen werden und so Polyhierarchien entstehen können. Das kann sinnvoll sein, wenn verschiedene Kriterien für die Bildung von Ober- und Unterbegriffen verwendet werden. Die Systematik, die durch die Deskriptoren erzeugt wird, ist demnach allgemeiner als z.B. die Dezimalklassifikation. Das führt zu einer größeren Flexibilität, die allerdings nur genutzt werden kann, wenn die entsprechenden Retrieval-Werkzeuge zur Verfügung stehen.

Weiter ermöglicht es die hierarchische Struktur der Deskriptoren, alle Unterbegriffe eines Begriffs bei einer Suche mit einzubeziehen. Wären im Beispiel aus Abbildung 13 die Terme Vertebrates und Invertebrates in diesem Sinne als Deskriptoren verwendet worden, hätten die Tiere als Unterbegriffe einbezogen werden können. Andererseits fallen in einem biologischen Sinn auch Menschen unter die Vertebrates (Wirbeltiere). Mit einem Deskriptor Animal, der (Versuchs-)Tiere im Gegensatz zu Menschen (als Versuchspersonen) bezeichnet, hätte man mehr Glück haben können. Er wäre aber nicht mit den Vertebrates und Invertebrates kompatibel gewesen.

Das Beispiel zeigt in einem einfachen Fall, dass Thesauren selten universell definiert werden können, sondern am besten für verschiedene Fachgebiete jeweils spezifisch angepasst werden. Das führt allerdings dazu, dass sich Suchende in jedem Fachgebiet zunächst den entsprechenden Thesaurus aneignen müssen. Dadurch sind Thesauren als intuitive Zugriffsstrukturen nur bedingt geeignet.

Konstruktion eines Thesaurus

Thesauren werden im Allgemeinen "von Hand", also von Menschen erstellt; das kann z.B. im Zusammenhang mit bibliografischen Arbeiten wie Bibliografien, Bibliotheks- oder Museumskatalogen, Abstract-Sammlungen und bibliografischen Informationsdiensten, aber auch zur Beschreibung von Wirtschaftsgütern und Produktionsbereichen im internationalen Handel geschehen. Dabei arbeiten meist mehrere Personen oder auch Institutionen zusammen, die mit dem Fachgebiet, für das der Thesaurus konstruiert werden soll, befasst sind.

Eine typische Vorgehensweise bei der Erstellung eines Thesaurus ist in Burkart (1997) [->] beschrieben:

  • Zunächst wird der Bezugsrahmen eingegrenzt. Dabei werden die Thematik, die Spezifität, der Sprachstil und der Umfang des Thesaurus festgelegt.
  • Dann werden Quellen ausgewählt, aus denen Wörter entnommen werden sollen. Das können potenzielle Nutzende und Expertinnen, Fachwörterbücher, aktuelle Literatur, Lehrbücher, bereits vorhandene Thesauren und Bezeichnungslisten oder Indexierungsexperimente mit relevanten Dokumenten sein. Die so gefundenen Wörter werden auf eine geeignete Grundform zurückgeführt.
  • Dieses Vokabular wird dann der so genannten terminologischen Kontrolle unterworfen. Dadurch sollen die Unschärfen der natürlichen Sprache beseitigt und die Terme in Synonymmengen aufgeteilt werden. Dabei unterscheidet man verschiedene Kontrollläufe:
    • Bei der Synonymkontrolle werden unterschiedliche Schreibweisen, Abkürzungen und Vollformen, verschiedene Sprachstile wie Fremdwortgebrauch und regionale Unterschiede, aber auch aufgrund der angestrebten Spezifität nicht zu unterscheidende Wörter zusammengefasst.
    • Die Polysemkontrolle unterscheidet Wörter, die zwar gleich geschrieben werden, aber mehrere unterschiedliche Bedeutungen haben, und ordnet sie unterschiedlichen Synonymmengen bzw. Deskriptoren zu. Dabei können eindeutige Synonyme der Polyseme verwendet werden, oder die Bedeutung kann durch nachgestellte Qualifikatoren oder kurze Beschreibungen (so genannte Scope Notes) klargestellt werden.
    • Bei der Zerlegungskontrolle werden Komposita gegebenenfalls in ihre Bestandteile zerlegt. Das kann notwendig sein, um die richtige Spezifität eines Begriffs zu erhalten.
  • Im letzen Schritt, der begrifflichen Kontrolle, werden die konstruierten Äquivalenzklassen durch Relationen miteinander in Beziehung gesetzt. Wichtig sind vor allem die hierarchischen Relationen, die als Abstraktions- oder generische Relation (Oberbegriff, spezifischerer Begriff) oder als Bestand(teil)srelation auftreten können. Eine weitere Relation ist die Assoziationsrelation, die zwischen verwandten Äquivalenzklassen bestehen kann, zwischen denen keine hierarchische Relation besteht.

Die manuelle Thesauruserstellung ist aufwändig und damit teuer und auch langsam. Deshalb wurde in letzter Zeit versucht, Thesauren automatisch auf der Basis von großen Textsammlungen, so genannten Korpora, aus dem entsprechenden Gebiet zu erstellen. Solche automatisch generierten assoziativen Thesauren weisen meistens nicht die streng hierarchische Struktur auf, wie sie für manuell bzw. intellektuell konstruierte Thesauren typisch ist. Sie haben dafür den Vorteil, dass sie billiger, schneller und stärker auf eine Domäne spezialisiert sein können. Zudem kann ihre Struktur klarer auf die Datengrundlage zurückgeführt werden als die der im Laufe vieler Jahre gewachsenen manuellen Thesauren. Ansätze zur automatischen Konstruktion solcher Thesauren werden in Abschnitt 3.5.1 beschrieben.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.4Thesauren
Abb. 26 Beispiele von Thesauruseinträgen
Abb. 27 Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-System
Thesaurus, kontrolliertes Vokabular, Relation, allgemeiner Thesaurus, Roget's Thesaurus, Thesauren in IR-Systemen, kontrolliertes Vokabular, Deskriptor, Synonym, Synonymmenge, Expansion, Rotated Index, Bibliografie, Bezugsrahmen, terminologische Kontrolle, Synonymkontrolle, Polysemkontrolle, Scope Note, Zerlegungskontrolle, begriffliche Kontrolle, assoziativer Thesaurus allgemeiner Thesaurus, assoziativer Thesaurus, begriffliche Kontrolle, Bezugsrahmen, Bibliografie, Deskriptor, Expansion, kontrolliertes Vokabular, kontrolliertes Vokabular, Polysemkontrolle, Relation, Roget's Thesaurus, Rotated Index, Scope Note, Synonym, Synonymkontrolle, Synonymmenge, terminologische Kontrolle, Thesauren in IR-Systemen, Thesaurus, Zerlegungskontrolle

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.