R. Ferber: Data Mining & Information Retrieval 1.5.5

4.5: Cluster und unscharfe Mengen

Kategorisierungen, wie sie in _4.2.1.1_ eingeführt wurden, zerlegen eine Menge von Beispielen in disjunkte Teilmengen. Die zu lernenden Kategorisierungsalgorithmen bilden diese Zerlegung nach, indem Bedingungen an die vorhersagenden Attribute gestellt werden. Das geschieht im Allgemeinen in einem überwachten Lernverfahren, bei dem also die Zerlegung durch die vorherzusagenden Attribute vorgegeben ist. Dazu wird - wie beim ID3 - lediglich Nominalskalenniveau beötigt, man muss also nur entscheiden können, ob zwei Attributwerte gleich oder ungleich sind.

Im Vektorraummodell des IR wurden die Dokumente nach ihrer Ähnlichkeit zu einer Anfrage in eine Rangfolge gebracht aus der durch Vorgabe einer Ähnlichkeitsschwelle oder einer festen Anzahl von Dokumenten zu verschiedenen Anfragen oder Prototypen Mengen ähnlicher Dokumente gebildet werden können. Dabei wird die Tatsache ausgenutzt, dass zwischen den Dokumeten Ähnlichkeiten oder Abstände berechnet werden können, sie also ein höheres Skalenniveau besitzen. Dafür werden im einfachen Vektorraummodell keine überwachten Lernverfahren verwendet, die Ähnlichkeiten - und damit die Einteilung in Teilmengen - werden aus den Repräsentationen der Dokumente berechnet und nicht aus vorgegebenen Kategorisierungen.

Solche Einteilungen sind im Allgemeinen keine Zerlegungen der Beispielmenge mehr: Zum einen brauchen die Teilmengen, die sich dabei ergeben, nicht mehr disjunkt zu sein, zum anderen braucht die Vereinigung der Teilmengen nicht mehr die gesamte Beispielmenge zu ergeben.

Abb. 61: Teilmengen, die sich in maximal einer Stelle von einem Prototypen unterscheiden, sind nicht disjunkt.

Im Folgenden sollen verschiedene Arten Teilmengen zu konstrukieren kurz dargestellt werden, um dann mit den unscharfen Mengen, eine Verallgemeinerung des Mengenkonzepts vorzustellen.

4.5.1: Cluster

Neben der in Definition _4.2.1.1_ beschriebenen Kategorisierung von Beispielen, bei der die Menge der Beispiele in disjunkte Teilmengen zerlegt wurde, können auch Einteilungen sinnvoll sein, bei denen sich die Mengen, die die verschiedenen Arten von Beispielen beschreiben, überlappen. Solche Einteilungen sind keine Zerlegungen der Beispielmenge mehr. Sie treten typischerweise auf, wenn zu Protopyen ähnliche Beispiele gesucht werden, wie es beim Vektorraummodell des Information Retrieval beschrieben wurde. Abbildung _61_ gibt zu drei Tupeln aus Abbildung _59_ die Mengen der Tupel an, die sich nur in einer Stelle unterscheiden.

Im einfachen Beispiel aus Abbildung _61_ haben alle Elemente einer Menge die gleiche Ähnlichkeit bzw. den gleichen Abstand zu einem Prototypen. Bei feiner abgestuften Ähnlichkeitsmaßen können die Elemente einer über eine Schranke definierten Menge - wie sie beispielsweise im Clusterverfahren von SMART (siehe Abschnitt _3.4.6_ ) verwendet wurde - unterschiedlich ähnlich zum definierenden Prototypen sein. Um solche Unterschiede darzustellen, kann man die Theorie der unscharfen Mengen verwenden. In dieser Theorie können unterschiedliche Grade der Zugehörigkeit zu einer Menge beschrieben werden. Sie kann auch verwendet werden, wenn die Bestimmung der Ähnlichkeit oder Zugehörigkeit mit Unsicherheiten behaftet ist. Dann könnte man eine Sicherheit angeben, mit der ein Beispiel in eine Menge gehört.

4.5: Cluster und unscharfe Mengen

Abb. 61: Teilmengen, die sich in maximal einer Stelle von einem Prototypen unterscheiden, sind nicht disjunkt.

4.5.1: Cluster

4.5.2: Unscharfe Mengen