R. Ferber: Data Mining & Information Retrieval 1.1

Vorwort

Die zunehmende Verbreitung von elektronischen Informationsverarbeitungs- und Speichermedien lässt die Menge der Daten, Texte und multimedialen Dokumente die digital zur Verfügung stehen, immer schneller anwachsen. Gleichzeitig werden diese Daten durch die zunehmende Vernetzung für immer mehr Menschen zugänglich. Das gilt sowohl für einzelne Organisationen als auch weltweit. Diese Datenmengen können aber nur genutzt werden, wenn sie auch erschlossen sind, d. h. wenn diejenigen, die sie nutzen wollen, auch wissen, wo und wie sie sie finden, was sie beinhalten und wie sie sie verwenden können. Dieses Wissen wird nur teilweise durch die Systeme, von denen die Daten angeboten werden, explizit vermittelt; bei vielen Informationssystemen wird es bei den Nutzenden vorausgesetzt. Die klassische Telefonauskunft , z. B. setzt voraus, dass die Nutzenden wissen, wozu ein Telefon gut ist, wie man damit umgeht und wessen Telefonnummer sie suchen. Diese Annahme erscheint sinnvoll, da die Auskunft im Allgemeinen nur mit einem Telefon erreicht werden kann und angerufen wird, um Telefonnummern zu erfragen. Wenn die Telefonnummer zu einem bestimmten Namen erfragt wird, werden die Angaben von den Nutzenden im Allgemeinen auch als verlässlich angesehen, da kein unmittelbarer Grund ersichtlich ist, warum eine falsche Auskunft erteilt werden sollte. Wird aber nicht nach einer Adresse sondern nach einer Dienstleistung gefragt (die Nummer einer Rechtsanwältin oder eines Arztes), ergeben sich zusätzliche Auswahlkriterien für eine Nummer.

In anderen Fällen sind die Verhältnisse weniger klar. Das World Wide Web (WWW oder einfach Web) zum Beispiel besteht aus zig Millionen Dateien, die weltweit auf unzähligen Rechnern verteilt sind und deren wesentliche Gemeinsamkeit die Auszeichnungssprache HTML (Hypertext Markup Language) ist. Hier sind weder die Inhalte noch der Zweck des Systems klar definiert. Entsprechend aufwändiger ist es hier, nach bestimmten Inhalten zu suchen. Hat man Informationen gefunden, ist es viel schwieriger zu beurteilen, ob sie richtig, vollständig und zuverlässig sind.

Solche Probleme sind allerdings weder völlig neu, noch auf elektronische Medien beschränkt. So wurde z. B. im Bereich des (wissenschaftlichen) Literatur- und Bibliothekswesens schon lange versucht, Systematiken zu entwickeln, nach denen Artikel und Bücher inhaltlich erfasst, bewertet und geordnet werden können. In den letzten 40 Jahren wurden zahlreiche elektronische Information Retrieval ( IR) Systeme entwickelt, um gezielt nach Dokumenten mit einem bestimmten Inhalt suchen zu können. Solche Systeme waren aber meist auf vergleichsweise kleine und / oder wohldefinierte Dokumentsammlungen, Sachgebiete und Gruppen von Nutzenden beschränkt. Dadurch, dass zum einen die Digitalisierung und Vernetzung zunimmt und dass es zum anderen für viele Menschen immer einfacher und billiger wird, selbst Dokumente zu erstellen und öffentlich zugänglich zu machen, stellen sich viele Probleme neu.

Während klassische IR Systeme einen durch eine Anfrage ausgedrückten Informationsbedarf mit Dokumenten oder Datensätzen einer Sammlung oder Datenbank bedienen, die mehr oder weniger den tatsächlichen Informationsbedarf der Anfragenden befriedigen, lassen sie Informationen über das Verhältnis der Dokumente oder Datensätze untereinander meistens weitgehend unzugänglich. An diesem Punkt setzen Knowledge Discovery in Databases (KDD), Data Mining oder Wissensextraktionsmethoden an. Ihr Ziel ist es, Abhängigkeiten und Regelmäßigkeiten zwischen Datenbankeinträgen oder Dokumenten zu finden und in eine für Nutzende verständliche Form zu bringen. Bei diesen Ansätzen steht also weniger der einzelne Datensatz im Vordergrund, der in einer Datenbank sicher verwaltet und gespeichert werde soll, sondern die Daten werden quasi als Rohstoff verwendet aus dem neues Wissen gewonnen werden soll. (Daher die griffige Bezeichnung " Data Mining".) Die gewonnenen Regeln können als eigenständiges Wissen über die Daten genutzt werden, sie können aber auch verwendet werden, um Retrieval Methoden zu verbessern und damit Nutzenden den Zugang zu gesuchten Informationen zu erleichtern.

Bei der Ermittlung von Regelmäßigkeiten ergeben sich eine Reihe von Problemen: Aus der in der Regel sehr großen Menge möglicher Beziehungen zwischen Einträgen müssen solche herausgesucht werden, die für Nutzende sinnvoll, einsichtig und vor allem nützlich sind. Dabei muss berücksichtigt werden, dass gerade große Datenbanken oft unklare, fehlende oder widersprüchliche Informationen enthalten. Bei schwach strukturierten Daten, wie Text-, Bild- und Multimediadaten können die Einträge oft nicht direkt verwendet werden, um Regeln zu bestimmen. Es müssen zunächst Methoden entwickelt werden, um geeignete Eigenschaften oder Features zu bestimmen, zwischen denen dann Regelmäßigkeiten gesucht werden können.

Im Information Retrieval und KDD geht es darum, Dokumente und Wissen für Nutzende zugänglich zu machen. Dazu müssen die Nutzenden zum einen in der Lage sein, ihren oft nur vagen Informationsbedarf an das System zu übermitteln, zum anderen müssen die Ergebnisse einer Suche oder eines Discovery Prozesses so dargestellt werden, dass sie von den Nutzenden gut verstanden und genutzt werden können. Die Qualität eines Systems misst sich letztendlich daran, wie gut es Menschen bei der Lösung ihrer Probleme unterstützt. Um eine gute Unterstützung zu erreichen, ist es notwendig, Systeme an die Art und Weise, wie Menschen Information verarbeiten, anzupassen. Das bedeutet, dass die Forschung und Entwicklung in diesem Bereich immer auch die menschliche Informationsverarbeitung in Betracht ziehen und damit auch empirische Methoden der Kognitionsforschung berücksichtigen muss. Forschung und Entwicklung zu IR und KDD liegen also im Grenzbereich zwischen Ingenieurwissenschaften und empirischen Humanwissenschften.

Die Vorlesung ist folgendermaßen gegliedert:

In der Einführung (Teil 1 ) werden einige typische Aufgaben und Szenarien beschrieben. Dabei werden auch einige Anforderungen und Probleme genannt, die bei der Entwicklung von Systemen berücksichtigt werden müssen.
Im 2 . Teil werden grundlegende Überlegungen zum Thema angestellt und ein allgemeines Modelle eines IR Systems beschrieben.
Der Teil 3 stellt die "klassischen" Modelle und Verfahren des Information Retrieval vor. Dabei wird - soweit möglich - auf die aktuellen Entwicklungen im WWW eingegangen.
Teil 4 behandelt Data-Mining bzw. Knowledge Discovery Methoden. Dabei werden vor allem Verfahren vorgestellt, die auf streng strukturierten Daten, in der Regel also Faktendatenbanken, arbeiten und oft aus dem Bereich "Machine Learning" stammen.
In Teil werden neuere IR Verfahren vorgestellt. Insbesondere wird auf die eingegangen. Weiter werdenund Entwicklungen vorgestellt, die neue Methoden aus verwandten Gebieten im IR, bzw. zur Weiterentwicklung von Informationssystemen einsetzen, insbesondere Systemen die Wissensextraktion im Information Retrieval verwenden. Dabei zeigt sich, dass einige ältere und neuere Forschungsansätze auch unter dieser Perspektive gesehen und beschrieben werden können.

Knowledge Discovery in Databases (KDD) ist ein junges Forschungsgebiet, zu dem verschiedene Disziplinen beitragen. Entsprechend ist nicht nur das Vokabular uneinheitlich (und meistens englisch bzw. amerikanisch).

Die Grundlagen für diese Vorlesung sind entsprechend vielfältig: Bücher und Skripte zum Thema Information Retrieval: Van Rijsbergen (1979 [->], liegt in einer HTML-Version im Netz), Salton and McGill (1983 [->]), Salton (1988 [->]), Frakes and Baeza-Yates (1992 [->])), Fuhr (1997 [->]) und Grossman & Frieder (1998 [->]).

Zum Thema KDD wurden die Skripte Holsheimer und Siebes 1994 [->], Wüthrich 1994 [->] verwendet.

Ansonsten wurden zahlreiche Originalbeiträge aus Fachzeitschriften, Tagungsbänden und Technical Reports zugrunde gelegt. Entsprechend ist auch die Auswahl der Themen der Vorlesung: Neben den Grundlagen der jeweiligen Gebiete werden einzelne Implementierungen und experimentelle Ergebnisse vorgestellt.

Viele Ergebnisse und Softwarepakete zu den Themen Knowledge Discovery in Databases und Machine Learning werden über das WWW verbreitet. Ein guter Einstiegspunkt ist die "Knowlede Discovery Mine" von Piatetsky-Shapiro (www [->]).