ZURÜCK ] [ Home ] [ WEITER ] Druckansicht Homepage R. Ferber:
Interessen & Projekte
Vollversion ] [ ENGLISH ] [ Impressum ]

Wissensgewinnung aus Korpora

Die Annahme, dass Beziehungen zwischen Wörtern und Begriffen einen Teil des Wissens über ein Sachgebiet ausmachen, liegt auch dem Konzept eines traditionellen Thesaurus zugrunde. Er wird in der Regel "von Hand" erstellt und besteht aus den (wesentlichen) Wörtern und Begriffen eines Fachgebiets und den Beziehungen zwischen diesen. Die Art der Beziehungen kann dabei genauer festgelegt werden, also z. B. als Teilmengenbeziehung oder als Allgemeiner-Spezifischer-Beziehung.

Assoziative Thesauren

Verwendet man statt der von Menschen bestimmten Beziehungen automatisch berechnete Assoziationen (oder Ähnlichkeiten) spricht man von einem assoziativen Thesaurus. Werden die Assoziationen aus Textsammlungen gewonnen, kann man diese Berechnung auch als eine Form der Wissensgewinnung aus Korpora bezeichnen oder einen (maschinellen) Lernvorgang. Die Wissensgewinnung aus Beispielen wird auch gerne Data Mining oder Knowledge Discovery in Databases (KDD) genannt. Natürlich müssen die so gewonnenen Wissenstrukturen in geeigneter Weise überprüft werden.

IMAGINE - ein Generator für assoziative Thesauren

Als Weiterentwicklung der Modelle und Untersuchungen zu assoziativen Wortnetzen habe ich 1997 am Institut integrierte Publikations- und Informationssysteme (IPSI, Darmstadt) der damaligen GMD (heute Fraunhofer Gesellschaft) das System IMAGINE (Interaction Merger for Associations Gained by Inspection of Numerous Exemplars) entwickelt, mit dem aus großen Textsammlungen kookurrenzbasierte Assoziationen gewonnen, optimiert und gegen eine Testsammlung geprüft werden können, um damit einen assoziativen Thesaurus zu berechnen. Das System wurde an einer Literaturdatenbank der British Library of Development Studies überprüft. Die Programme zur Auswertung der Kookurrenzen und zur Optimierung der Gewichte sowie der IMAGINE-Server für den Einsatz des assoziativen Thesaurus in verteilten Anwendungen habe ich in C++ realisiert. Das zugehörige Web-Frontend ist in Perl geschrieben.

Weiter lesen

IMAGINE ist im Artikel Automated Indexing with Thesaurus Descriptors: A Co-occurrence based Approach to Multilingual Retrieval Ferber 1997 [->] beschrieben. Eine allgemeine Einführung in Data-Mining-Verfahren und maschinelles Lernen findet sich in meinem Vorlesungsskript Data Mining und Information Retrieval und im zweiten Teil meines Buchs Information Retrieval - Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web.


Diese HTML-Datei wurde am 21. 10. 2003 von R. Ferber erzeugt