![]() |
![]() |
![]() |
![]() |
Ein weiteres Verfahren, Strukturen in Dokumentsammlungen zu finden, ist die "Latent Semantic Indexing" genannte Methode, die z. B. von Deerwester, Dumais, Furnas, Landauer und Harshman (1990 [->]) beschrieben wurde. Allerdings werden diese Strukturen nur sehr bedingt zugänglich gemacht.
Das Verfahren setzt auf der Term-Dokument-Matrix W , wie sie in Abschnitt _4.4.2_ beschrieben wurde, auf. Der durch diese Matrix beschriebene hochdimensionale Vektorraum wird nun auf einen Vektoraum mit erhebliche kleinerer Dimension reduziert, der durch ein der Faktorenanalyse ähnliches Verfahren bestimmt wird. Dazu wird die Matrix W mit einem "singular value decomposition" Verfahren in die Form
Experimente mit der Methode zeigen, dass sich bei der MED (vergl. Abbildung _34_ ) Dokumentensammlung Verbesserungen im Precision-Recall-Diagramm ergeben, bei der CISI Sammlung ergeben sich dagegen keine Verbesserungen. Die Autorinnen und Autoren vermuten, dass das an der Zusammenstellung der Sammlungen liegt. CISI scheint erheblich homogener zu sein als MED.
![]() |
![]() |
![]() |
![]() |