Auch der Inhalt von Faktendatenbanken lässt sich - wie in Abschnitt _3.1_ beschrieben - als eine Menge D von Objekten, Datensätzen oder Dokumenten definieren, auf die Attribute
Definiert man die Transformation
Häufig wird in der Beschreibung von KDD Verfahren nicht zwischen Objekten und den Tupeln, die sie repräsentieren, unterschieden, sondern man geht davon aus, dass eine eineindeutige Zuordnung von Objekten zu ihren Tupeln existiert, wie sie in relationalen Datenbanken durch einen Primärschlüssel garantiert wird. Stellt der Primärschlüssel allerdings nur eine Identifikationsnummer oder Ähnliches dar, garantiert diese Annahme allerdings nicht, dass die Objekte durch die übrigen Attribute inhaltlich gut genug beschrieben sind, um erfolgreich Lernverfahren darauf anzuwenden.
Die Wertebereiche Ri der Attribute sind in der Regel klein und wohldefiniert, also z. B. binär, ganzzahlig, reellwertig oder bestehen aus endlich vielen zulässigen Einträgen. Die Anzahl der Attribute bleibt dabei überschaubar. Das unterscheidet sie von den Attributen in IR Systemen. Dort sind die Attribute entweder sehr komplex, wenn sie z. B. die Menge der Terme in einem Text beschreiben, oder es gibt sehr viele binäre oder reellwertige Attribute, wenn für jeden Term ein Attribut definiert wird, das sein Auftreten oder sein Gewicht angibt.