R. Ferber: Informationssysteme 1.5.4

4.4: Korpusbasierte Verfahren

Im probabilistischen Ansatz und bei der Implementierung des Inferenznetzes wurde angenommen, dass das Auftreten von Termen in der Sprache unabhängig ist; d. h. es wurde angenommen, dass die Wahrscheinlichkeit, zwei Terme im selben Dokument zu finden, nur von deren globalen Auftretenswahrscheinlichkeiten abhängt und nicht von ihrer jeweiligen "Bedeutung". Diese Annahme scheint im Allgemeinen recht unrealistisch (vergleiche Abbildung 4.4 ). Sie wurde gemacht, um Berechnungs- bzw. Schätzmöglichkeiten für andere Wahrscheinlichkeiten zu haben; ohne sie hätten keine Werte für die in den jeweiligen Ansätzen gesuchten Wahrscheinlichkeiten geschätzt werden können. Allerdings können bei starken Vereinfachungen die Schätzwerte unrealistisch werden (Cooper 1991 [->]).

4.4: Korpusbasierte Verfahren

Abb. 48: Aus dem Lob - und dem Brown-Korpus mit Kookurrenzdaten berechnete Assoziationen zu drei Termen

4.4.1: Der assoziative Ansatz

4.4.2: Kookurrenzverfahren

4.4.3: Anwendung im mehrsprachigen Retrieval

4.4.4: Deskriptoren bestimmen

4.4.5: Latent Semantic Indexing