Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Einführende Beispiele
Stichwörter dieser Seite Kategorisierung, Bewertungstabelle, Scoring Table, Attribut, Schwellwert, Trainingsmenge, Regel
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.1.9: Kategorisierung mit einem Data-Mining-System

Carter und Catlett (1987) [->] beschreiben ein Machine-Learning-Programm, das Entscheidungen darüber trifft, ob ein Antrag auf eine Kreditkarte bewilligt werden soll oder nicht. Traditionell können diese Entscheidungen von den Mitarbeitenden des jeweiligen Instituts aufgrund ihrer Erfahrungen und anhand von Richtlinien getroffen werden; oder es werden Bewertungstabellen, so genannte Scoring Tables (siehe Abbildung 4 ), verwendet.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 4: Scoring Table

Mit diesen Tabellen werden für bestimmte Attribute - wie Höhe des Einkommens, Höhe des Bankguthabens oder Grundbesitz - Punkte vergeben. Wenn die Summe der Punkte einen Schwellwert übersteigt, wird eine Kreditkarte vergeben, sonst nicht. Anstelle dieses einfachen Summationsverfahrens kann auf der Basis von Fallbeispielen mit Machine-Learning-Verfahren ein Entscheidungsbaum erzeugt werden (siehe Abbildung 6 ).

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 5: Eine kleine Trainingsmenge

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 6: Entscheidungsbaum

Carter und Catlett machen leider keine genaueren Angaben über die verwendeten Attribute (vermutlich, weil das System tatsächlich angewendet wurde), sondern geben nur hypothetische Beispiele. So ist in Abbildung 4 eine Scoring-Tabelle dargestellt und in Abbildung 5 eine Trainingsmenge. Abbildung 6 zeigt einen Entscheidungsbaum, der die Beispiele aus der Trainingsmenge aus Abbildung 5 richtig kategorisiert. Man beachte, dass (in diesem hypothetischen Beispiel) nur zwei der vier Attribute verwendet werden.

Andere Beispiele für Regeln sind Regelmäßigkeiten im Kaufverhalten von Konsumenten, oder die Analyse von Verbindungsdaten von Funktelefonen, um den Missbrauch von Kennungen festzustellen (siehe Kapitel 2.6 ). Häufig werden auch (anonymisierte) Patientendaten verwendet, um ärztliche Diagnosen aus den verschiedenen Labor- und Testwerten vorherzusagen.

Diese Beispiele zeigen auch die Problematik des Ansatzes. Es gehört nicht viel Phantasie dazu sich vorzustellen, wie die Verfahren z.B. bei der Vergabe von Arbeitsplätzen, dem Abschluss von Versicherungsverträgen oder der polizeilichen (Raster-)Fahndung angewendet werden können. Dabei besteht natürlich die Gefahr, dass aufgrund allgemeiner Regeln im Einzelfall falsche Schlüsse auf die individuellen Fähigkeiten, Verhaltensweisen, Eigenschaften und Risiken einer Person gezogen werden.

Aber auch wenn die Regeln und Schlüsse richtig sein sollten, wird sich eine Gesellschaft grundlegend verändern, wenn ihre Bürgerinnen und Bürger durch die Anwendung der Regeln auf allgemein zugängliche oder leicht zu erhebende Daten sehr genau eingeordnet werden können.

Schließlich kann allein der Glaube von Entscheidungsträgern an die Vorhersagen eines Systems bei Ermessensentscheidungen ausschlaggebend sein und zur Diskriminierung ganzer Gruppen führen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Einführende Beispiele
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.1.9Kategorisierung mit einem Data-Mining-System
Abb. 4 Scoring Table
Abb. 5 Eine kleine Trainingsmenge
Abb. 6 Entscheidungsbaum
Kategorisierung, Bewertungstabelle, Scoring Table, Attribut, Schwellwert, Trainingsmenge, Regel Attribut, Bewertungstabelle, Kategorisierung, Regel, Schwellwert, Scoring Table, Trainingsmenge

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.