Wertebereiche der Attribute [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Rahmenbedingungen für Lernalgorithmen
Stichwörter dieser Seite	Wertebereich, Skalenniveau, Nominalskala, Relation, Ordinalskala, Intervallskala, Rationalskala, Nominalskala, Intervallskala, Ordinalskala, Schwellwertfunktion, Nominalskala
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

2.3.5.3: Wertebereiche der Attribute

In den Beispielen, die bisher betrachtet wurden, waren die Attribute maximal dreiwertig (Abbildung 6 ). Dabei wurden die Wertebereiche R_i stets nur als Mengen betrachtet. Weitere Strukturen, wie Ähnlichkeiten zwischen Werten, wurden nicht berücksichtigt. Nun wird aber beim ID3-Algorithmus für jeden Wert, den ein Attribut in der Beispielmenge annimmt, ein neuer Kindknoten angelegt. Das kann zum einen dazu führen, dass es bei großen Wertebereichen sehr viele Knoten gibt und damit der Baum sehr groß wird. Zum anderen kann es bedeuten, dass z.B. bei reellen Messwerten Werte, die sich nur minimal unterscheiden, also z.B. durch zufällige Schwankungen an einem Messgerät zustande gekommen sind, genauso als verschieden angesehen werden wie Werte mit sehr großer Differenz.

Um diese Fragen genauer zu beschreiben, kann man verschiedene Grade der inneren Ordnung von Mengen, so genannte Skalenniveaus, definieren.

Nominalskala

Den niedrigsten Organisationsgrad besitzen so genannte Nominalskalen. Hier handelt es sich lediglich um Mengen, bei denen jedes Element benannt werden kann. Die einzige Relation zwischen Elementen aus der Menge ist die Identität: Außer gleich und ungleich gibt es keine Beziehungen zwischen den Elementen. Beispiele solcher Mengen sind Vornamen (allerdings lassen die meistens schon auf das Geschlecht schließen) oder Kennziffern, die zur eindeutigen Bezeichnung von Objekten vergeben werden (auch hier lassen sich meistens chronologische oder andere systematische Beziehungen erschließen).

Ordinalskala

Bei einer Ordinalskala sind die Elemente vollständig geordnet. Das heißt, für je zwei verschiedene Elemente ist eindeutig festgelegt, welches von beiden größer ist. Es muss aber nicht unbedingt möglich sein, Abstände zu messen. Zum Beispiel geben die Begriffe ruhend, langsam, schnell, sehr schnell Geschwindigkeiten an. Es ist aber nicht möglich zu sagen, ob der "Geschwindigkeitsabstand" zwischen ruhend und langsam größer ist als der zwischen langsam und schnell.

Intervallskala

Bei Daten, die Intervallskalenniveau haben, kommt zu der vollständigen Ordnung noch die Möglichkeit hinzu, Werte zu addieren. Mit solchen Werten können also Abstände gemessen werden.

Rationalskala

Ist schließlich auf einer Intervallskala auch noch die Multiplikation definiert, spricht man von einer rationalen Skala, mit deren Werten wie gewohnt gerechnet werden darf.

Der ID3-Algorithmus nutzt nur Nominalskaleneigenschaften: Es wird für jeden angenommenen Wert eines Attributs ein neuer Kindknoten angelegt. Im Auswahlkriterium werden nur Häufigkeiten verwendet. Möglicherweise vorhandene weitere Strukturen der Wertebereiche, etwa Ähnlichkeiten von oder Abstände zwischen Attributwerten, bleiben ungenutzt. Dieses Wissen kann allerdings in die Definition der Attribute einfließen, wie es im Beispiel von Carter und Catlett (1987) [->] geschehen ist (siehe Abbildung 6 ). Dort war als Attribut eine binäre Schwellwertfunktion der Form

A (x) = {

1 falls x>

0 sonst

verwendet worden. Dabei wird das Intervallskalenniveau des Kontostands auf das Niveau einer Ordinalskala verringert, die nur noch zwei Werte kennt: Die Schwellwertfunktion hat als Input die reelle Zahl x , der Output aber hat nur noch Ordinalskalenniveau. Im Entscheidungsbaum werden dann nicht mal Eigenschaften der Ordinalskala verwendet, sondern lediglich Nominalskaleneigenschaften. In dieser Weise wird der Wertebereich des Attributs vereinfacht und es geht Information verloren. Andererseits wird der Algorithmus erst anwendbar, wenn der Wertebereich der Attribute nicht zu groß ist: Der Verlust von Information ist in diesem Fall ein erwünschter Generalisierungseffekt, der die Anwendung des Algorithmus erst ermöglicht.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Rahmenbedingungen für Lernalgorithmen

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

2.3.5.3

Wertebereiche der Attribute

Wertebereich, Skalenniveau, Nominalskala, Relation, Ordinalskala, Intervallskala, Rationalskala, Nominalskala, Intervallskala, Ordinalskala, Schwellwertfunktion, Nominalskala

Intervallskala, Intervallskala, Nominalskala, Nominalskala, Nominalskala, Ordinalskala, Ordinalskala, Rationalskala, Relation, Schwellwertfunktion, Skalenniveau, Wertebereich

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.