R. Ferber: Data Mining & Information Retrieval 1.5.1.3.11

4.1.2.1: Faktendatenbanken

Auch der Inhalt von Faktendatenbanken lässt sich - wie in Abschnitt _3.1_ beschrieben - als eine Menge D von Objekten, Datensätzen oder Dokumenten definieren, auf die Attribute

A_i:D->R_i , i=1,...,n

angewendet werden können. Jedes dieser Attribute hat eine vorgegebene Menge R_i von Werten, die es annehmen kann (Wertebereich). Wie bei der in Abbildung _10_ gezeigten schematischen Darstellung eines Information Retrieval Systems gibt es eine interne Darstellung der Objekte als Mengen von Attribut-Wert-Paaren, also als Elemente oder Tupel aus der Menge

R₁×R₂×...×R_n=_{_k=1}^ⁿR_k

Definiert man die Transformation

T:D->_{_k=1}^ⁿR_k, T(d)=(A₁(d),...,A_n(d))

als die Abbildung, die die Objekte durch die Attribute A_i, i=1,...,n in die Menge der Tupel abbildet, so ist das gerade die Transformation von Objekten zu ihrer Repräsentation aus Abbildung _10_ . Objekte, die unter dieser Transformation auf das gleiche Tupel abgebildet werden, sind in der Faktendatenbank nicht zu unterscheiden. Wenn sie aufgrund von Anforderungen an das System unterschieden werden müssen, ist die Auswahl der Attribute für die Anwendung ungeeignet. Bei KDD Anwendungen liegen allerdings häufig nur Datentupel vor, die für andere Anwendungen erfasst wurden, bei denen also kein Einfluss mehr auf die verwendeten Attribute genommen werden kann. Wie in solchen Fällen vorgegangen werden kann, muss von Fall zu Fall entschieden werden.

Häufig wird in der Beschreibung von KDD Verfahren nicht zwischen Objekten und den Tupeln, die sie repräsentieren, unterschieden, sondern man geht davon aus, dass eine eineindeutige Zuordnung von Objekten zu ihren Tupeln existiert, wie sie in relationalen Datenbanken durch einen Primärschlüssel garantiert wird. Stellt der Primärschlüssel allerdings nur eine Identifikationsnummer oder Ähnliches dar, garantiert diese Annahme allerdings nicht, dass die Objekte durch die übrigen Attribute inhaltlich gut genug beschrieben sind, um erfolgreich Lernverfahren darauf anzuwenden.

Die Wertebereiche R_i der Attribute sind in der Regel klein und wohldefiniert, also z. B. binär, ganzzahlig, reellwertig oder bestehen aus endlich vielen zulässigen Einträgen. Die Anzahl der Attribute bleibt dabei überschaubar. Das unterscheidet sie von den Attributen in IR Systemen. Dort sind die Attribute entweder sehr komplex, wenn sie z. B. die Menge der Terme in einem Text beschreiben, oder es gibt sehr viele binäre oder reellwertige Attribute, wenn für jeden Term ein Attribut definiert wird, das sein Auftreten oder sein Gewicht angibt.