ZURÜCK

1.7: Knowledge Discovery / Data Mining

Expertensysteme und Entscheidungsunterstützungssysteme beschränken sich nicht mehr darauf, einzelne in sich geschlossene Informationsobjekte auszuwählen und anzuzeigen. Bei diesen Systemen werden die zugrundeliegenden Daten verarbeitet. Bei Expertensystemen müssen die Fakten dazu in spezifischen Formaten vorliegen und gegebenenfalls in sich konsistent sein. Ähnliches gilt bei Entscheidungsunterstützungssystemen sobald Prognosen über zu erwartende Entwicklungen getroffen werden müssen. Hier werden mit vorhandenen Daten in einem spezifischen Format vorher festgelegte Extrapolationen berechnet.

Ein in gewisser Weise umgekehrtes Szenario wird bei Data Mining bzw. Knowledge Discovery in Databases verwendet. Hier wird in vorhandenen Datensammlungen nach nützlichen Regelmäßigkeiten gesucht. Dabei braucht zunächst nicht bekannt zu sein, welche Eigenschaften oder Attribute der Datensätze wichtig sind und welche nicht. Die Data Mining Verfahren sollen gerade das herausfinden.

Die Begriffe Knowledge Discovery in Databases (KDD) und Data Mining (DM) werden teilweise synonym verwendet. Als deutsche Übersetzung könnte man von Wissensextraktion oder Regelextraktion aus Datenbanken sprechen (was aber selten getan wird).

Es gibt allerdings auch den Versuch, die beiden Begriffe zu differenzieren. Fayyad, Piatetsy-Shapiro und Smyth (1996 [->]) schlagen vor, "Knowledge Discovery in Databases" für einen gesamten Prozess zu verwenden, in dem die Bezeichnung "Data Mining" nur einen einzelnen Extraktionsschritt beschreibt. Weitere Bezeichnungen und Definitionsvorschläge finden sich z. B. in der F(requently)A(sked)Q(uestions)-Seite der "Knowledge Discovery Mine" (Piatetsky-Shapiro www [->]).

Hier wird die folgende eher allgemeine Definition zugrunde gelegt (die natürlich streng genommen keine Definition ist):

KDD beschreibt automatisierte Verfahren, mit denen Regelmäßigkeiten in Mengen von Datensätzen gefunden und in eine für Nutzende verständliche Form gebracht werden.

Der erste Teil dieser Definition ist auch eine Beschreibung von " Machine Learning (ML)". Dieser Forschungsbereich befasst sich z. B. damit, Klassifizierungsverfahren zu entwickeln, die mit einer Menge von Beispielen "trainiert" werden und anschließend in der Lage sind, diese und andere Datensätze (möglichst richtig) zu klassifizieren. KDD ist eng verwandt mit Machine Learning. Einige Autoren definieren KDD als Machine Learning, bei dem das Trainingsset eine Datenbank ist (Holsheimer und Siebes 1994 [->]). Die Unterschiede zum Machine Learning bestehen zum einen darin, dass die Anzahl der Datensätze in einer Datenbank erheblich größer sein kann als die Anzahl der Datensätze in den Trainingsets von ML-Verfahren und dass die Datensätze weniger konsistent sind als ein Trainingsset. Zum anderen fordert die obige Definition auch, dass die Regelmäßigkeiten in eine für Nutzende verständliche Form gebracht werden müssen. Das können z. B. Regeln der Form "Wenn X und Y dann Z" sein, oder auch statistische Aussagen wie "in X% der Fälle, in denen Y eintritt, tritt auch Z ein". Diese Forderung ist z. B. für neuronale Netze eine hohe Hürde. Bei diesen Systemen werden Parameter, die das Gesamtverhalten des Systems bestimmen, durch Training mit einem Lernkorpus ermittelt. Es ist aber meistens nicht möglich, die schließlich gefundenen Werte zu interpretieren.

Viele der bisher in der Literatur vorgestellten Systeme arbeiten auf Faktendatenbanken, d. h. sie arbeiten mit stark strukturierten Records aus wohldefinierten Typen, in der Regel also mit binären, ganzzahligen oder reellen Werten, wie z. B. Verkaufsdaten, Umsatzzahlen, Testwerten oder Preisen. Als Ergebnisse liefern sie z. B. Verfahren, mit denen neue Datensätze in Kategorien eingeteilt werden können. So kann man z. B. versuchen, die Kundendaten einer Kreditkartengesellschaft zu verwenden, um bessere und einheitlichere Regeln für die Aufnahme neuer Kunden zu ermitteln (Carter and Catlett 1987 [->]).

Andere Beispiele sind Regelmäßigkeiten im Kaufverhalten von Konsumenten, die aus einer Kundendatenbank extrahiert werden können, um gezielter werben zu können, oder die Analyse von Verbindungsdaten von Funktelefonen, um den Missbrauch von Kennungen festzustellen. Häufig werden auch (anonymisierte) Patientendaten verwendet, um ärztliche Diagnosen aus den verschiedenen Labor- und Testwerten vorherzusagen.

Diese Beispiele zeigen auch die Problematik des Ansatzes. Es gehört nicht viel Phantasie dazu, sich vorzustellen, wie die Verfahren zum Beispiel bei der Vergabe von Arbeitsplätzen, dem Abschluß von Versicherungsverträgen oder der polizeilichen Fahndung angewendet werden können. Dabei besteht zum einen die Gefahr, dass aufgrund von allgemeinen Regeln auf die individuellen Fähigkeiten und Risiken einer Person geschlossen wird, auch wenn dieser Schluss im konkreten Fall falsch ist. Aber auch wenn der Schluss richtig sein sollte, kann durch die Nutzung von allgemein zugänglichen oder leicht zu erhebenden Daten eine sehr feine Differenzierung zwischen den Bürgern einer Gesellschaft erreicht werden, die diese Gesellschaft grundlegend verändern kann. Schliesslich kann allein der Glaube von Entscheidungsträgern an die Vorhersagen eines Systems bei Ermessensentscheidungen ausschlaggebend sein und zur Diskriminierung ganzer Gruppen führen.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber