ZURÜCK

1.10: Knowledge Discovery und Information Retrieval

Knowledge Discovery hat sich zunächst ziemlich unabhängig vom Information Retrieval entwickelt. Der Zusammenhang zwischen den beiden Disziplinen wird allerdings zunehmend wahrgenommen: Wissen oder Regelmäßigkeiten, die aus Dokumentsammlungen extrahiert werden, können genutzt werden, um den Zugang zu den Dokumenten der Sammlung zu erleichtern. Umgekehrt lassen sich einige der Methoden, die im IR benutzt werden, als Wissensextraktionsverfahren interpretieren.

Einige einfache Beobachtungen kann man z. B. aus Anfragen an eine herkömmliche Literaturdatenbank ableiten: z. B. findet INSPEC (Januar bis Juni 95) für die Anfrage

Information retrieval system
92 Einträge, für die Anfrage
Information retrieval systems
219, für die Schnittmenge der beiden Anfragen aber nur 30. D. h. dass die Singular- und die Pluralformen des Suchterms
Information retrieval system
sehr verschiedene Dokumentmengen finden.

"Information retrieval systems" ist ein Indexterm von INSPEC. Er sollte als solcher den Dokumenten zugewiesen werden, die sich mit diesem Thema beschäftigen und bei denen es nicht nur am Rande erwähnt wird. Weitere Trefferzahlen für Anfragen, bei denen die Benutzung als Indexterm einbezogen wurde, finden sich in Tabelle 7 . Es zeigt sich, dass die relative Häufigkeit des Indexterms bei der Pluralform ca. zehn mal so hoch ist, wie bei der Singularform. Über Gründe für dieses Einzelergebnis kann man natürlich nur spekulieren. Vielleicht werden von dem System, mit dem die Artikel indexiert werden, im Text (Titel oder Abstract) auftretende Indexterme automatisch erkannt und den (menschlichen) Indexierenden vorgeschlagen. Vielleicht ist es aber auch so, dass die Pluralform eher verwendet wird, wenn über ein System berichtet wird, und die Singularform, wenn es nur als Beispiel am Rande erwähnt wird. Auch hier lässt sich ein Problem von KDD Verfahren beobachten: Dadurch, dass ein Zusammenhang gefunden und beschrieben wird, müssen die Gründe für sein Auftreten nicht erkannt sein. Sie können in Umständen liegen, die zwar systematisch bei den Einträgen einer Datensammlung auftreten, aber deshalb noch lange nicht charakteristisch für die beschriebenen Objekte oder Zustände sein müssen.

ZUGANGAbb. 7: Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber