4.4:
Korpusbasierte Verfahren
Im probabilistischen Ansatz und bei der Implementierung des
Inferenznetzes wurde angenommen, dass das Auftreten von Termen in der
Sprache unabhängig ist; d. h. es wurde angenommen,
dass die Wahrscheinlichkeit, zwei Terme im selben Dokument
zu finden, nur von deren globalen Auftretenswahrscheinlichkeiten
abhängt und nicht von ihrer jeweiligen
"Bedeutung". Diese Annahme scheint im Allgemeinen recht
unrealistisch (vergleiche Abbildung
4.4
).
Sie wurde gemacht, um Berechnungs- bzw.
Schätzmöglichkeiten für andere Wahrscheinlichkeiten zu
haben;
ohne sie hätten keine Werte für die
in den jeweiligen Ansätzen gesuchten Wahrscheinlichkeiten
geschätzt werden können. Allerdings können
bei starken Vereinfachungen die Schätzwerte unrealistisch werden
(Cooper 1991 [->]).
© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber