Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Stichwörter dieser Seite kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5.4: Deskriptoren bestimmen

Ähnlich wie bei der Bestimmung von ähnlichen Wörtern beim zweisprachigen Retrieval können Kookurrenzverfahren auch dazu benutzt werden, zu Wörtern der natürlichen Sprache ähnliche Deskriptoren aus einem kontrollierten Vokabular zu bestimmen. In einem Experiment von Ferber (1997) [->] wurde dazu eine Sammlung von 81 326 Einträgen aus der Idis-Datenbank der British Library for Development Studies (BLDS) verwendet, die Verweise auf Artikel und Publikationen über die Entwicklung in der so genannten dritten Welt enthält. Die Einträge enthalten neben weiteren Angaben den Titel eines Artikels und eine Indexierung mit dem OECD-Thesaurus. Ein Beispiel ist in Abbildung 94 angegeben.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 94: Datensatz aus der Idis Datenbank

Die Untersuchung hatte zum Ziel, aus den Wörtern eines Titels mit Hilfe einer Term-Term-Matrix die intellektuell vergebenen Thesaurusdeskriptoren vorherzusagen. Die Term-Term-Matrix enthielt dabei Ähnlichkeiten zwischen Wörtern aus den Titeln und den Deskriptoren. Um die besten Deskriptoren für einen Titel zu bestimmen, wurde aus dem Titel ein Vektor erzeugt, in dem die Häufigkeiten der Terme im Titel eingetragen wurden. Dieser Vektor wurde mit der Ähnlichkeitsmatrix multipliziert, wodurch sich ein Vektor mit Gewichten über der Menge der Deskriptoren ergab. Nach diesen Gewichten wurden die Deskriptoren in eine Rangfolge gebracht, in der die besten Deskriptoren auf den ersten Plätzen stehen sollten. Diese Rangfolge kann mit Precision- und Recall-Maßen mit den intellektuell vergebenen Deskriptoren verglichen werden.

Im Einzelnen wurde folgendermaßen vorgegangen: Zunächst wurden aus allen Titeln und Deskriptoren zwei Vokabulare bestimmt. Das Vokabular der Titelwörter bestand aus den 3 746 Wörtern, die häufiger als 15-mal auftraten, länger als zwei Zeichen waren, mindestens einen Vokal enthielten und nicht nur aus "i" und "v" bestanden (also als einfache römische Zahlen interpretiert werden konnten). In das zweite Vokabular wurden die 3 631 Deskriptoren aufgenommen, die mindestens zweimal auftraten.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 95: Mittlere Precision-Werte für unterschiedliche Parameterwerte

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 96: Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge

Aus der Sammlung der Einträge wurden zwei Teilsammlungen von jeweils 500 Einträgen als Trainings- und Testmengen zufällig ausgewählt. Aus den übrigen Einträgen wurde für alle Paare aus einem Titelterm und einem Deskriptorterm bestimmt, wie oft sie zusammen in einem Eintrag auftraten. Die Einträge enthielten im Mittel 8,44 Terme aus dem Vokabular der Titel (Standardabweichung: 4,57) und 5,30 Terme aus dem Deskriptorvokabular (Standardabweichung: 2,18). Zur Berechnung der Ähnlichkeiten zwischen den Termen der beiden Vokabulare wurde die Formel

(212)
p(i&j)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(i)x·p( j)y
verwendet, wobei die Parameter x und y anhand der Trainingsmenge empirisch optimiert wurden. Diese beiden Parameter steuern den Einfluss der Häufigkeit eines Terms auf die berechnete Ähnlichkeit. Sind sie nahe 0, ist der Nenner nahe 1 , sind sie größer, werden die Werte der Einzelwahrscheinlichkeiten durch die Potenzierung verkleinert, der gesamte Quotient damit vergrößert. Da die Wahrscheinlichkeiten in der Untersuchung durch relative Häufigkeiten angenähert wurden, werden insgesamt durch kleine Werte der Parameter die Ähnlichkeiten zu häufigen Termen vergrößert, durch große Parameterwerte die zu seltenen Termen.

Zur Optimierung der Parameter wurden insgesamt mehr als 300 Durchgänge mit den 500 Trainingsbeispielen berechnet, bei denen x zwischen 0,3 und 1,5 und y zwischen 0,3 und 1,0 variiert wurde. Dabei wurden sechs verschiedene Gütemaße berechnet: mittlere Precision-Werte an den Recall-Werten 0,25, 0,5, 0,75 und 1,0 sowie der Median und das arithmetische Mittel der Rangplätze der intellektuell vergebenen Deskriptoren. Ergebnisse für verschiedene Parameterwerte für die Precision bei einem Recall von 0,75 sind im Diagramm in Abbildung 95 dargestellt. Abbildung 96 zeigt eine Tabelle mit den besten Werten für die verschiedenen Gütemaße; dabei sind auch die Ergebnisse, die mit der Testmenge erreicht wurden, eingetragen. Es zeigt sich, dass diese Ergebnisse sich nicht sonderlich von denen der Trainingsmenge unterscheiden, dass also durch die Optimierung der Parameter das Modell nicht nur auf die Beispiele der Trainingsmenge optimiert wurde.

Ein interessanter Teilaspekt der Untersuchung zeigt sich in der Tatsache, dass sich die Bereiche der Parameterwerte, in denen die besten Ergebnisse erzielt wurden, für x und y stark unterscheiden. x ist der Parameter, mit dem der Einfluss der Häufigkeit der Titelwörter gesteuert wurde, y erfüllt diese Rolle für die Thesaurusdeskriptoren. Die besten Ergebnisse ergeben sich also, wenn bei den Titelwörtern seltene (und damit spezifische) Terme stark gewichtet werden, bei den Thesaurustermen aber eher häufige (also allgemeinere) Deskriptoren. Betrachtet man die Untersuchung als eine Simulation der Vergabe von Deskriptoren durch Menschen, kann man das folgendermaßen interpretieren: Beim Lesen der Titel wird auf seltene Wörter geachtet, vermutlich um die spezifischen Inhalte zu erkennen und zu berücksichtigen. Beim Vergeben der Deskriptoren werden eher häufige und damit allgemeinere Terme verwendet, vermutlich um das Thema des Artikels gut abzudecken und damit einen guten Recall sicherzustellen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5.4Deskriptoren bestimmen
Abb. 94 Datensatz aus der Idis Datenbank
Abb. 95 Mittlere Precision-Werte für unterschiedliche Parameterwerte
Abb. 96 Parameterwerte, für die sich nach den verschiedenen Maßen beste Ergebnisse für die Trainingsmenge ergaben, mit den entsprechenden Ergebnissen für die Testmenge
kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.