ZURÜCK

6.1.5: Latent Semantic Indexing

Ein weiteres Verfahren, Strukturen in Dokumentsammlungen zu finden, ist die "Latent Semantic Indexing" genannte Methode, die z. B. von Deerwester, Dumais, Furnas, Landauer und Harshman (1990 [->]) beschrieben wurde. Allerdings werden diese Strukturen nur sehr bedingt zugänglich gemacht.

Das Verfahren setzt auf der Term-Dokument-Matrix W , wie sie in Abschnitt _6.1.2_ beschrieben wurde, auf. Der durch diese Matrix beschriebene hochdimensionale Vektorraum wird nun auf einen Vektorraum mit erhebliche kleinerer Dimension reduziert, der durch ein der Faktorenanalyse ähnliches Verfahren bestimmt wird. Dazu wird die Matrix W mit einem "singular value decomposition" Verfahren in die Form

W=TSD'

gebracht, wobei T und D orthonormale Spalten haben und S eine Diagonalmatrix ist, mit entlang der Hauptdiagonalen absteigenden, nicht negativen Einträgen. Der niedrigdimensionale Vektorraum wird nun dadurch erzeugt, dass in der mittleren Matrix S lediglich die ersten r Zeilen beibehalten, und alle anderen Diagonalelemente auf 0 gesetzt werden. Dadurch, dass die Elemente in der Hauptdiagonalen der Größe nach geordnet vorliegen, sollen so die wesentlichen Eigenschaften erhalten bleiben.

Experimente mit der Methode zeigen, dass sich bei der MED (vergl. Abbildung _35_ ) Dokumentsammlung Verbesserungen im Precision-Recall-Diagramm ergeben, bei der CISI Sammlung ergeben sich dagegen keine Verbesserungen. Die Autorinnen und Autoren vermuten, dass das an der Zusammenstellung der Sammlungen liegt. CISI scheint erheblich homogener zu sein als MED.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber