ZURÜCK

4.2.10: Unvollständige Beispiele

Neben inkonsistenten Beispielen können bei KDD Verfahren auch unvollständige Beispiele auftreten, wenn z. B. einzelne Angaben fehlen, oder neue Objekte auftreten, auf die die vorhandenen Attribute nicht angewendet werden können. Auch in diesem Fall gibt es einige Standardverfahren zur Vorbehandlung des Trainingssets, die je nach den Anforderungen an das System verwendet werden können. Zunächst kann man zu jedem Wertebereich einen zusätzlichen Wert undefined hinzufügen. Das wird in der Regel das Skalenniveau auf das einer Nominalskala absenken. Für Verfahren, die ein höheres Skalenniveau der Wertebereiche ausnützen, ist dieses Verfahren daher problematisch. Andere Möglichkeiten bestehen darin, bei Nominalskalen den Wert, der von dem entsprechenden Attribut am häufigsten im Trainingsset angenommen wird, einzusetzen. Bei Ordinalskalen kann der Median, bei Intervallskalen ein Mittelwert (arithmetisches Mittel, gewichtetes Mittel) eingesetzt werden. Auch hier gilt aber, dass diese Verfahren meistens nicht Bestandteil des eigentlichen KDD Algorithmus' sind, sondern Methoden, die das Trainingsset mehr oder weniger künstlich in eine Form bringen, die von dem KDD-Verfahren bearbeitet werden kann. Besser wäre es natürlich auch hier, einen Algorithmus zu entwickeln, der die Unvollständigkeit berücksichtigt und entsprechende Regeln generiert.

Eine aufwändigere Methode ist die, die fehlenden Attributwerte mit Hilfe desselben Verfahrens vorherzusagen, das für die vorherzusagenden Attribute verwendet wird: Man nutzt die Beispiele, bei denen der Attributwert vorhanden ist, als Trainingsset, mit dessen Hilfe ein Algorithmus entwickelt wird, mit dem die fehlenden Werte bestimmt werden.

Wie bei den Inkonsistenzen muß aber bei diesen Verfahren darauf geachtet werden, ob das Fehlen von Einträgen zufällig oder systematisch auftritt. In letzterem Fall kann durch die beschriebenen Verfahren das Trainingsset verfälscht werden: Wenn z. B. ein bestimmter Attributwert nicht dargestellt werden kann oder systematisch ausfällt, kann das Einsetzen des häufigsten Wertes bzw. des Mittelwertes die Datensätze stark verfälschen.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber