| ||||||||||||
2.3.5.5: Inkonsistente TrainingsdatenWird der ID3-Algorithmus auf eine inkonsistente Trainingsmenge angewendet, bricht das Verfahren zusammen. In diesem Fall existieren zwei Tupel s=(s0,...,sn) , t=(t0,...,tn )T , die auf den vorhersagenden Attributen A0,...,Am-1 dieselben Werte haben, sich auf den vorherzusagenden Attributen Am,...,An aber unterscheiden, für die also gilt:
Bei unterschiedlicher manueller Kategorisierung kann versucht werden, die Gründe der Unterschiede, also z.B. den Zeitpunkt der Kategorisierung oder die Person, die die Kategorisierung durchgeführt hat, als zusätzliches Attribut zu verwenden, um so eine konsistente Kategorisierung zu erreichen. Eine andere Möglichkeit besteht darin, Kategorien, die zu Inkonsistenzen führen, zusammenzulegen, sodass die Trainingsmenge bezüglich der neuen Kategorisierung konsistent ist. Theoretisch ist das immer möglich, da man im schlimmsten Fall (der damit auch der am wenigsten nützliche ist) nur noch eine einzige Kategorie übrig behält, bezüglich der aber jede Trainingsmenge natürlich konsistent ist. Es bleibt also im Einzelfall zu prüfen, ob eine solche vergröberte Kategorisierung noch nützlich ist. Ähnlich kann man auch im letzten Fall verfahren: Datensammlungen, die in einer feinen Kategorisierung inkonsistent sind, da eigentlich nur Wahrscheinlichkeitswerte über die Zugehörigkeit zu einer bestimmten Kategorie vorliegen, können für eine wesentlich gröbere Kategorisierung konsistent sein. In vielen Fällen ist es aber unzweckmäßig, die Trainingsmenge in eine deterministische Form zu zwingen, weil sie dem Bereich, aus dem die Beispiele stammen, nicht angemessen ist. In diesen Fällen kann eine statistische Aussage, die z.B. assoziative Regeln oder Wahrscheinlichkeiten für die Zugehörigkeit von Beispielen zu verschiedenen Kategorien angibt, viel nützlicher sein. Die meisten KDD-Verfahren, die Kategorisierungsalgorithmen konstruieren, setzen konsistente Trainingsmengen voraus. Das heißt, Trainingsmengen müssen vor der Verwendung im KDD-Verfahren auf Konsistenz geprüft werden und gegebenenfalls durch eine geeignete Vorbehandlung (preprocessing) in eine konsistente Form gebracht werden. Bei diesem Vorgehen geht aber im Allgemeinen die Information über die Inkonsistenzen, die ja in vielen Fällen durchaus wichtig sein kann, verloren. Besser wäre es, Inkonsistenzen im eigentlichen KDD-Algorithmus zu bearbeiten und soweit wie möglich auch zur Beschreibung der Daten zu nutzen. | ||||||||||||
| ||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.