Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Einführende Beispiele
Stichwörter dieser Seite Wissensgewinnung, Indexterm, Information Retrieval, Text Mining
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.1.11: Wissensgewinnung und Information Retrieval

Klassische IR-Systeme bedienen einen durch eine Anfrage ausgedrückten Informationsbedarf mit Dokumenten oder Datensätzen aus einer Sammlung oder Datenbank, die mehr oder weniger den tatsächlichen Informationsbedarf der Anfragenden befriedigen. Dabei wird aber in der Regel das Verhältnis der Dokumente oder Datensätze untereinander nicht weiter berücksichtigt. Um Regelmäßigkeiten zwischen den Dokumenten oder Datensätzen zu nutzen, können Wissensgewinnungsverfahren eingesetzt werden. Dabei stehen dann nicht mehr die einzelnen Dokumente oder Datensätze im Vordergrund, sondern die Daten werden quasi als Rohstoff verwendet, um daraus neues Wissen zu gewinnen, mit dem die Suche nach Dokumenten unterstützt werden kann. Als Beispiel wurden bereits assoziative Regeln erwähnt, mit denen weitere Suchwörter zu einem Thema gefunden werden können. Es gibt aber noch weitere Möglichkeiten, Data-Mining-Methoden für das Information Retrieval zu nutzen.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 7: Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995

Einige einfache Beobachtungen kann man schon aus Anfragen an eine herkömmliche Literaturdatenbank ableiten: Zum Beispiel findet INSPEC (Januar bis Juni 95) für die Anfrage Information retrieval system 92 Einträge, für die Anfrage Information retrieval systems (also den Plural) 219, für die Schnittmenge der beiden Anfragen aber nur 30. Die Singular- und die Pluralformen des Suchterms Information retrieval system haben also sehr verschiedene Treffermengen in INSPEC.

Information retrieval systems ist ein Indexterm von INSPEC. Er sollte als solcher den Dokumenten zugewiesen worden sein, die sich hauptsächlich mit diesem Thema beschäftigen und bei denen es nicht nur am Rande erwähnt wird. Weitere Trefferzahlen für Anfragen, bei denen die Benutzung als Indexterm einbezogen wurde, finden sich in Abbildung 7 . Es zeigt sich, dass die relative Häufigkeit des Indexterms bei der Pluralform ca. zehnmal so hoch ist wie bei der Singularform. Über Gründe für dieses Einzelergebnis kann man natürlich nur spekulieren. Vielleicht werden von dem System, mit dem die Artikel indexiert werden, im Text (Titel oder Abstract) auftretende Indexterme automatisch erkannt und den (menschlichen) Indexierenden vorgeschlagen. Vielleicht ist es aber auch so, dass die Pluralform eher verwendet wird, wenn über ein System berichtet wird, und die Singularform, wenn es nur als Beispiel am Rande erwähnt wird. Auch hier lässt sich ein Problem von KDD-Verfahren beobachten: Wenn ein Zusammenhang gefunden und beschrieben wird, müssen die Gründe für sein Auftreten noch nicht erkannt sein. Sie können in Umständen liegen, die zwar systematisch bei den Einträgen einer Datensammlung auftreten, aber deshalb noch lange nicht charakteristisch für die beschriebenen Objekte oder Zustände sein müssen.

Data Mining und Information Retrieval haben sich zunächst eher unabhängig voneinander entwickelt. Der Zusammenhang zwischen den beiden Forschungsgebieten wird allerdings zunehmend wahrgenommen und genutzt. Bei der Kombination von Methoden aus beiden Gebieten spricht man auch von Text-Mining-Verfahren.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Einführende Beispiele
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.1.11Wissensgewinnung und Information Retrieval
Abb. 7 Anzahl der in INSPEC gefundenen Dokumente für die Zeit vom Januar bis Juni 1995
Wissensgewinnung, Indexterm, Information Retrieval, Text Mining Indexterm, Information Retrieval, Text Mining, Wissensgewinnung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.