| ||||||||||||
1.3.4: ThesaurenIn gewisser Weise bilden Thesauren (Singular Thesaurus, im Plural häufig auch Thesauri) das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen. Während Klassifikationen Themen oder Objekte inhaltlich ordnen, erfassen Thesauren Wörter, Terme und Ausdrücke eines Sachgebiets und beschreiben die Beziehungen zwischen ihnen. Thesauren haben vor allem zwei Funktionen:
Man sollte allerdings zwischen allgemeinen Thesauren und den in einem IR-System verwendeten Thesauren unterscheiden. Ein allgemeiner Thesaurus listet zu jedem Wort, neben einer kurzen Definition des Begriffs, verschiedene Relationen zu Gruppen von anderen Wörtern auf:
Abbildung 26: Beispiele von ThesauruseinträgenIm Gegensatz dazu stehen bei den meisten Thesauren in IR-Systemen die Beschreibung eines Wissensgebiets und die möglichst eindeutige Auszeichnung der Dokumente einer Sammlung zu diesem Gebiet im Vordergrund. Kernstück eines solchen Thesaurus ist ein kontrolliertes Vokabular, mit dem vor allem die Probleme der Synonymie und Polysemie in den Griff bekommen werden sollen. In diesen Kernbestand von für die Indexierung mit dem Thesaurus zugelassenen Ausdrücken werden nur sorgfältig ausgewählte Terme aufgenommen, die eine wohl definierte Bedeutung in dem zu beschreibenden Sachgebiet haben. Die Ausdrücke in diesem kontrollierten Vokabular werden auch Deskriptoren genannt. Sie können aus einem oder mehreren Wörtern bestehen. Zu einem Deskriptor kann eine Menge von Synonymen angegeben werden, die in der Fachsprache in der gleichen oder einer ähnlichen Bedeutung wie der Deskriptor verwendet werden, und deshalb bei der Indexierung nicht zugelassen sind. Die Definition dieser Synonymmengen legt auch fest, wie genau ein Thesaurus die Details eines Fachgebiets aufschlüsselt. Soll wenig genau unterschieden werden, kann man verwandte Terme zu einer Synonymmenge zusammenfassen. Soll dagegen eine sehr detailgenaue Beschreibung ermöglicht werden, dürfen nur Terme mit wirklich gleicher Bedeutung in einer Synonymmenge zusammengefasst werden. In vielen Fällen wird es sogar nötig sein, verschiedene Aspekte eines breit verwendeten Begriffs in verschiedene Thesaurusdeskriptoren aufzuspalten, um genügend Spezifität des Thesaurus zu erreichen. In diesen Fällen müssen die spezifischen Bedeutungen durch weitere Definitionen oder Bemerkungen kenntlich gemacht werden. Abbildung 27: Schematische Darstellung der Nutzung eines Thesaurus in einem Text-Retrieval-SystemFür Thesauren gibt es typischerweise zwei Zugangsweisen. Zum einen gibt es eine alphabetische Liste mit den Deskriptoren. In diese Liste werden auch die Terme aus den Synonymmengen aufgenommen. Von ihnen aus wird mit der USE-Relation auf den zugelassenen Deskriptor der entsprechenden Synonymmenge verwiesen. Für Deskriptoren oder Ausdrücke, die aus mehreren Wörtern bestehen, gibt es in der Regel einen so genannten Rotated Index, in dem sie unter jedem der einzelnen Wörter, aus denen sie zusammengesetzt sind, alphabetisch verzeichnet sind. Zum anderen sind Thesauren durch Oberbegriffs- und Unterbegriffsrelation hierarchisch gegliedert: Zu jedem Term sind ein Oberbegriff und eine Reihe spezifischerer Begriffe angegeben, wenn diese im Thesaurus existieren. Durch diese Relationen kann ein Thesaurus - wie eine Klassifikation - als hierarchischer Graph gesehen werden. Sind die Ober- und Unterbegriffsrelationen entsprechend streng definiert, kann sich so auch ein Baum ergeben. Die Struktur der Deskriptoren kann weiter kompliziert werden, indem zu einem Begriff mehrere Oberbegriffe zugelassen werden und so Polyhierarchien entstehen können. Das kann sinnvoll sein, wenn verschiedene Kriterien für die Bildung von Ober- und Unterbegriffen verwendet werden. Die Systematik, die durch die Deskriptoren erzeugt wird, ist demnach allgemeiner als z.B. die Dezimalklassifikation. Das führt zu einer größeren Flexibilität, die allerdings nur genutzt werden kann, wenn die entsprechenden Retrieval-Werkzeuge zur Verfügung stehen. Weiter ermöglicht es die hierarchische Struktur der Deskriptoren, alle Unterbegriffe eines Begriffs bei einer Suche mit einzubeziehen. Wären im Beispiel aus Abbildung 13 die Terme Vertebrates und Invertebrates in diesem Sinne als Deskriptoren verwendet worden, hätten die Tiere als Unterbegriffe einbezogen werden können. Andererseits fallen in einem biologischen Sinn auch Menschen unter die Vertebrates (Wirbeltiere). Mit einem Deskriptor Animal, der (Versuchs-)Tiere im Gegensatz zu Menschen (als Versuchspersonen) bezeichnet, hätte man mehr Glück haben können. Er wäre aber nicht mit den Vertebrates und Invertebrates kompatibel gewesen. Das Beispiel zeigt in einem einfachen Fall, dass Thesauren selten universell definiert werden können, sondern am besten für verschiedene Fachgebiete jeweils spezifisch angepasst werden. Das führt allerdings dazu, dass sich Suchende in jedem Fachgebiet zunächst den entsprechenden Thesaurus aneignen müssen. Dadurch sind Thesauren als intuitive Zugriffsstrukturen nur bedingt geeignet. Konstruktion eines ThesaurusThesauren werden im Allgemeinen "von Hand", also von Menschen erstellt; das kann z.B. im Zusammenhang mit bibliografischen Arbeiten wie Bibliografien, Bibliotheks- oder Museumskatalogen, Abstract-Sammlungen und bibliografischen Informationsdiensten, aber auch zur Beschreibung von Wirtschaftsgütern und Produktionsbereichen im internationalen Handel geschehen. Dabei arbeiten meist mehrere Personen oder auch Institutionen zusammen, die mit dem Fachgebiet, für das der Thesaurus konstruiert werden soll, befasst sind. Eine typische Vorgehensweise bei der Erstellung eines Thesaurus ist in Burkart (1997) [->] beschrieben:
Die manuelle Thesauruserstellung ist aufwändig und damit teuer und auch langsam. Deshalb wurde in letzter Zeit versucht, Thesauren automatisch auf der Basis von großen Textsammlungen, so genannten Korpora, aus dem entsprechenden Gebiet zu erstellen. Solche automatisch generierten assoziativen Thesauren weisen meistens nicht die streng hierarchische Struktur auf, wie sie für manuell bzw. intellektuell konstruierte Thesauren typisch ist. Sie haben dafür den Vorteil, dass sie billiger, schneller und stärker auf eine Domäne spezialisiert sein können. Zudem kann ihre Struktur klarer auf die Datengrundlage zurückgeführt werden als die der im Laufe vieler Jahre gewachsenen manuellen Thesauren. Ansätze zur automatischen Konstruktion solcher Thesauren werden in Abschnitt 3.5.1 beschrieben. | ||||||||||||
| ||||||||||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.