| ||||||||||||
2.4: Cluster und unscharfe MengenKategorisierungen, wie sie in Abschnitt 2.3.1 eingeführt wurden, zerlegen eine Menge von Beispielen in disjunkte Teilmengen. Die zu lernenden Kategorisierungsalgorithmen bilden diese Zerlegung nach, indem Bedingungen an die vorhersagenden Attribute gestellt werden. Das geschieht im Allgemeinen in einem überwachten Lernverfahren, also einem Verfahren, bei dem die Zerlegung durch die vorherzusagenden Attribute vorgegeben ist. Dazu wird (wie beim ID3) lediglich Nominalskalenniveau benötigt, man muss also nur entscheiden können, ob zwei Attributwerte gleich oder ungleich sind. Im Vektorraummodell des IR wurden die Dokumente nach ihrer Ähnlichkeit zu einer Anfrage in eine Rangfolge gebracht, aus der durch Vorgabe einer Ähnlichkeitsschwelle oder einer festen Anzahl von Dokumenten zu verschiedenen Anfragen oder Prototypen Mengen ähnlicher Dokumente gebildet werden können. Dabei wird die Tatsache ausgenutzt, dass zwischen den Dokumenten Ähnlichkeiten oder Abstände berechnet werden können, sie also ein höheres Skalenniveau besitzen. Dafür werden im einfachen Vektorraummodell keine überwachten Lernverfahren verwendet. Die Ähnlichkeiten - und damit die Einteilung in Teilmengen - werden aus den Repräsentationen der Dokumente berechnet und nicht aus vorgegebenen Kategorisierungen. Solche Einteilungen sind im Allgemeinen keine Zerlegungen der Beispielmenge: Zum einen müssen die Teilmengen, die sich dabei ergeben, nicht mehr disjunkt sein, zum anderen muss die Vereinigung der Teilmengen nicht mehr die gesamte Beispielmenge ergeben. Im Folgenden sollen verschiedene Arten, Teilmengen zu konstruieren, kurz dargestellt werden, um dann mit den unscharfen Mengen eine Verallgemeinerung des Mengenkonzepts vorzustellen. 2.4.1: ClusterIn dem einfachen Beispiel aus Abbildung 65 haben alle Elemente einer Menge die gleiche Ähnlichkeit bzw. den gleichen Abstand zum jeweiligen Prototypen. Bei feiner abgestuften Ähnlichkeitsmaßen können die Elemente einer über eine Schranke definierten Menge - wie sie beispielsweise im Single-Pass-Cluster-Verfahren von SMART verwendet wurde (siehe Abschnitt 1.3.6.6 ) - unterschiedlich ähnlich zum definierenden Prototypen sein. Um solche Unterschiede darzustellen, kann man die Theorie der unscharfen Mengen verwenden. In dieser Theorie lassen sich unterschiedliche Grade der Zugehörigkeit zu einer Menge beschreiben. Sie kann auch verwendet werden, wenn die Bestimmung der Zugehörigkeit zu einer Menge oder Kategorie mit Unsicherheiten behaftet ist. Bei unscharfen Mengen kann man angeben, wie groß die "Sicherheit" ist, dass ein Element zu einer Menge oder Kategorie gehört. 2.4.2: Unscharfe Mengen | ||||||||||||
| ||||||||||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.