R. Ferber: Data Mining & Information Retrieval 1.2.18

1.8: Ein Data Mining System zur Kategorisierung

Carter and Catlett (1987 [->]) beschreiben ein Machine Learning Programm, das Entscheidungen darüber trifft, ob ein Antrag auf eine Kreditkarte bewilligt werden soll oder nicht. Traditionell können diese Entscheidungen von den Mitarbeitenden des jeweiligen Instituts aufgrund ihrer Erfahrungen und anhand von Richtlinien getroffen werden oder es werden sogenannte Scoring Tables verwendet: dabei werden für bestimmte Attribute, wie z. B. Höhe des Einkommens, Höhe des Bankguthabens, Grundbesitz, ... Punkte vergeben (für reellwertige Attribute werden Intervalle festgelegt). Wenn die Summe der Punkte einen Schwellenwert übersteigt, wird eine Kreditkarte vergeben, sonst nicht. Anstelle dieses einfachen Summationsverfahrens kann auf der Basis von Fallbeispielen mit Machine Learning Verfahren ein Entscheidungsbaum erzeugt werden (siehe Abbildung 6 ).

Abb. 4: Scoring Table (aus Carter and Catlett 1987)

Carter and Catlett machen leider keine genaueren Angaben über die verwendeten Attribute (vermutlich, weil das System tatsächlich angewendet wurde), sondern geben nur hypothetische Beispiele. So ist in Abbildung _4_ eine Scoring Tabelle dargestellt und in Abbildung 5 ein Trainingsset.

Abb. 5: Ein kleines Trainingsset (aus Carter and Catlett, 1987)

Abbildung 6 zeigt einen Entscheidungsbaum, der die Beispiele aus dem Trainingsset aus Abbildung _5_ richtig kategorisiert.

Abb. 6: Entscheidungsbaum zum Trainingsset aus Abb. (nach Carter and Catlett, 1987)

Man beachte, dass (in diesem hypothetischen Beispiel) nur zwei der vier Attribute verwendet werden.