Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Cluster und unscharfe Mengen
Stichwörter dieser Seite unscharfe Menge, Cluster-Verfahren, Fuzzy Set, Grad der Mitgliedschaft, charakteristische Funktion, Vektorraummodell, leere unscharfe Menge, unscharfes Schließen, unscharfe Relation, vorherzusagendes Attribut, vorhersagendes Attribut
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.4.2: Unscharfe Mengen

Während in Cluster-Verfahren Teilmengen von ähnlichen Beispielen konstruiert werden, kann man auch versuchen, die Definition von Mengen so zu verallgemeinern, dass vage Zuordnungen von Beispielen in unterschiedliche Teilmengen besser abgebildet werden können. Dazu wurden bereits 1965 von L. A. Zadeh [->] so genannte unscharfe Mengen oder Fuzzy Sets eingeführt. Die folgende Darstellung orientiert sich an Bademer und Gottwald (1993) [->] .

Die Theorie der unscharfen Mengen stellt als eine Verallgemeinerung des Mengenkonzepts den Grad der Mitgliedschaft in einer Menge zur Verfügung. Diese Verallgemeinerung wird mit Hilfe einer Zugehörigkeitsfunktion definiert:

Pfeil als Kennzeichnung einer Unterueberschrift Definition 17: Unscharfe Menge

Bei unscharfen Mengen muss für ein Element also nicht mehr eindeutig gesagt oder bestimmt werden, ob es in einer bestimmten Menge liegt oder nicht, sondern es kann ein Zahlenwert zwischen 0 und 1 angegeben werden, der die Zugehörigkeit des Elements zu der Menge beschreibt. Das entspricht der Gewichtung von Termen in der Vektordarstellung eines Dokuments. Dort war allerdings keine Einschränkung der Werte auf das Intervall [0,1] festgelegt worden. Eine solche Einschränkung kann allerdings im Allgemeinen durch eine geeignete Normierung erreicht werden. Dabei müssen aber die Auswirkungen auf die verwendeten Ähnlichkeitsmaße berücksichtigt werden. Im Unterschied zum Vektorraummodell ist die Definition von unscharfen Mengen nicht auf eine endliche (Grund-)Menge von Termen beschränkt. Sie wurde für beliebige Mengen eingeführt. In Abbildung 66 sind verschiedene Lebensabschnitte als unscharfe Mengen über dem Grundraum der Lebensjahre dargestellt.

Die herkömmliche Mengendefinition (oder die Definition einer scharfen Menge) lässt sich als Spezialfall der Definition einer unscharfen Menge schreiben. Dazu wählt man als Zugehörigkeitsfunktion einer Menge UMathematisches Zeichen: TeilmengeD die charakteristische Funktion:
mU (d) = 1U (d) = {
1 falls dMathematisches Zeichen: Element vonU
0 sonst
Das ist das gleiche Vorgehen wie bei der Beschreibung des booleschen Retrieval als Spezialfall des Vektorraummodells.

Zwei unscharfe Mengen sind genau dann gleich, wenn ihre Zugehörigkeitsfunktionen gleich sind. Die leere unscharfe Menge ist durch die Zugehörigkeitsfunktion
mØMathematisches Zeichen: identisch0
gegeben, die Grundmenge D durch
mDMathematisches Zeichen: identisch1
Weiter können folgende Begriffe definiert werden:

Pfeil als Kennzeichnung einer Unterueberschrift Definition 18: Träger, Kern, Schnitte und Höhe

Bei endlichen Grundmengen, wie sie beispielsweise im Vektorraummodell auftreten, kann man das Supremum durch das Maximum ersetzen.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 66: Unscharfe Mengen zur Beschreibung von Lebensaltern

Zur weiteren Untersuchung der Eigenschaften unscharfer Mengen bzw. zur weiteren Verallgemeinerung von Eigenschaften scharfer Mengen auf unscharfe Mengen kann man die folgende Aussage benutzen, die eine Beziehung zwischen scharfen und unscharfen Mengen herstellt.

Pfeil als Kennzeichnung einer Unterueberschrift Satz 3: Festlegung durch Schnitte

Das lässt sich folgendermaßen einsehen: 1X>Griechischer Buchstabe alfa ist die charakteristische Funktion des Griechischer Buchstabe alfa -Schnitts. Sie ist also so lange gleich 1 , wie d in X>Griechischer Buchstabe alfa liegt. Das ist aber genau dann der Fall, wenn mX(d)>Griechischer Buchstabe alfa gilt. Mit wachsendem Griechischer Buchstabe alfa ergibt sich das Supremum also gerade für Griechischer Buchstabe alfa=mX(d)

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 67: Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den Alpha-Schnitten

Mit dieser Äquivalenz lassen sich Eigenschaften und Operationen von scharfen auf unscharfe Mengen übertragen. Geht man von der Teilmengenrelation für scharfe Mengen aus, kann man fordern, dass die Griechischer Buchstabe alfa -Schnitte einer Teilmengenrelation unscharfer Mengen die Teilmengenrelation für scharfe Schnitte erfüllen sollen. Man erhält als Definition also
YMathematisches Zeichen: TeilmengeX:Mathematisches Zeichen: aequivalentY>=Griechischer Buchstabe alfaMathematisches Zeichen: TeilmengeX>=Griechischer Buchstabe alfa  Mathematisches Zeichen: fuer alleGriechischer Buchstabe alfaMathematisches Zeichen: Element von[0,1 ]
Aus der rechten Seite kann man eine äquivalente Bedingung für die Zugehörigkeitsfunktionen ableiten: Für ein beliebiges dMathematisches Zeichen: Element vonD setzt man Griechischer Buchstabe alfa=mY(d) . Dann folgt aus dMathematisches Zeichen: Element vonY>=Griechischer Buchstabe alfa , dass auch dMathematisches Zeichen: Element vonX>=Griechischer Buchstabe alfa gilt und damit mX(d)>=Griechischer Buchstabe alfa , also mX(d)>=mY (d) Mathematisches Zeichen: fuer alled Mathematisches Zeichen: Element vonD . Umgekehrt folgt aus mX(d)>=mY (d) Mathematisches Zeichen: fuer alled Mathematisches Zeichen: Element vonD nach der Definition des Schnitts X>=Griechischer Buchstabe alfaMathematisches Zeichen: ObermengeY>=Griechischer Buchstabe alfa . Zusammen gilt also
YMathematisches Zeichen: TeilmengeXMathematisches Zeichen: aequivalentmY(d) <=mX(d)  Mathematisches Zeichen: fuer alledMathematisches Zeichen: Element vonD

Man kann also die Teilmengenrelation für unscharfe Mengen durch diese Äquivalenz definieren. Für sie folgt dann unmittelbar:
ØMathematisches Zeichen: TeilmengeXMathematisches Zeichen: TeilmengeD
YMathematisches Zeichen: TeilmengeX, XMathematisches Zeichen: TeilmengeYMathematisches Zeichen: es folgtY=X
sowie
YMathematisches Zeichen: TeilmengeX, XMathematisches Zeichen: TeilmengeMathematisches Zeichen: es folgt  YMathematisches Zeichen: TeilmengeW
Wie bei den scharfen Mengen gibt es auch bei unscharfen Mengen verschiedene sinnvolle Maße für die Größe einer Menge, je nachdem, ob der Träger endlich, abzählbar oder messbar ist. Bei endlichem Träger kann man analog zur Anzahl der Elemente einer scharfen Menge die Summe der Werte der Zugehörigkeitsfunktion verwenden.
Mathematisches Zeichen: Summe
dMathematisches Zeichen: Element vonsupp(X)
mX (d)
Bei abzählbarem Träger kann diese Summe (anders als bei der scharfen Menge) endlich sein oder auch nicht. Bei messbarem, aber nicht endlichem Träger kann man das Integral über die Zugehörigkeitsfunktion als Maß für die Größe der Menge verwenden.
Mathematisches Zeichen: Integral
supp(X)
mX (x) dx
Interessant sind dabei vor allem relative Größenangaben, also Angaben darüber, welchen Anteil der Größe der Grundmenge eine Teilmenge einnimmt. Diese relativen Größenangaben können für die verschiedenen Größenmaße berechnet werden.

Pfeil als Kennzeichnung einer Unterueberschrift Definition 19: Vereinigung, Durchschnitt und Komplement

Man sieht, dass sich diese Definitionen bei der Verwendung von scharfen Mengen, also von charakteristischen Funktionen, mit den herkömmlichen Definitionen von Vereinigung, Durchschnitt und Komplement decken.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 68: Vereinigung und Durchschnitt von unscharfen Mengen

Aus den entsprechenden Eigenschaften der Maximumsfunktion ergeben sich auch sofort

  • die Kommutativität:
    YMathematisches Zeichen: VereinigungX=XMathematisches Zeichen: VereinigungY
  • die Assoziativität:
    (YMathematisches Zeichen: VereinigungX)Mathematisches Zeichen: VereinigungW=XMathematisches Zeichen: Vereinigung( YMathematisches Zeichen: VereinigungW)
  • die Idempotenz:
    XMathematisches Zeichen: VereinigungX=X
  • und die Monotonie:
    YMathematisches Zeichen: TeilmengeXMathematisches Zeichen: es folgtYMathematisches Zeichen: VereinigungWMathematisches Zeichen: TeilmengeXMathematisches Zeichen: VereinigungW
Diese Eigenschaften lassen sich auch für den Durchschnitt zeigen. Entsprechend lassen sich auch Distributivgesetze und die Regeln über den Zusammenhang von Vereinigung und Durchschnitt mit der Komplementbildung (Regeln von de Morgan) auf unscharfe Mengen übertragen. Schließlich gilt
(YMathematisches Zeichen: VereinigungX)>Griechischer Buchstabe alfa =Y>Griechischer Buchstabe alfaMathematisches Zeichen: VereinigungX>Griechischer Buchstabe alfa
und
(YMathematisches Zeichen: DurchschnittX)>Griechischer Buchstabe alfa =Y>Griechischer Buchstabe alfaMathematisches Zeichen: DurchschnittX>Griechischer Buchstabe alfa

Neben dieser "kanonischen" Definition von Vereinigung und Durchschnittsbildung gibt es noch weitere Möglichkeiten, solche Operationen zu definieren. Darauf soll hier nicht eingegangen werden. Es soll aber noch angedeutet werden, wie Fuzzy-Methoden zum unscharfen Schließen bzw. unscharfen Kategorisieren verwendet werden können. Dazu kann man unscharfe Relationen analog zu scharfen Relationen als Teilmengen der entsprechenden kartesischen Produkte definieren:

Eine (scharfe) Relation zwischen zwei Attributen A1:D->R1 und A2:D->R2 kann als Teilmenge des kartesischen Produkts der Wertemenge der Attribute geschrieben werden.
TMathematisches Zeichen: TeilmengeR1×R2={( x,y) | xMathematisches Zeichen: Element vonR1,yMathematisches Zeichen: Element vonR 2}
Die Gleichheit zweier Attribute kann damit z.B. als Relation der Form
T={(x,y) |  x=y}
geschrieben werden.

Kategorisierungsregeln, wie sie z.B. beim AQ-Algorithmus beschrieben wurden, können auch als Relationen dargestellt werden. Die folgende Darstellung beschränkt sich der Einfachheit halber auf Kategorisierungen, die durch ein vorherzusagendes Attribut A2 beschrieben sind und sich nur auf ein vorhersagendes Attribut A1 stützen. Wie beschrieben, lässt sich jede Kategorisierung durch die geeignete Wahl bzw. Konstruktion von A1 auf diese Aufgabe reduzieren. Sie ist dann eine Funktion, die sich als Regel in der Form IF (A1=x) THEN A2=y schreiben lässt und als Relation in der Form
{(x,y) |  A1=x,A2=y}
Die charakteristische Funktion der Gleichheitsrelation auf der Menge der Paare ergibt sich z.B. für R=R1=R2={0,1,2} in der Form:
T= (
1 0 0
0 1 0
0 0 1
)
Ein Eintrag ti,j in dieser Matrix gibt an, ob der Wert xi der Variablen x und der Wert yj der Variablen y die Relation erfüllen (1) oder nicht (0).

Schreibt man ein Element aus R auch als seine charakteristische Funktion, also z.B. 1Mathematisches Zeichen: Element vonR als x=(0,1,0)t , so ergibt sich die Kategorisierung als Multiplikation der Matrix T mit dem Vektor x . Man kann sie in der Form IF (A1=x) THEN A2=T·x schreiben oder einfacher als
A2(x)=T·x
In dieser Weise werden Kategorisierungen beschrieben, solange die Matrix eine Permutationsmatrix ist, solange also in jeder Zeile und in jeder Spalte genau eine 1 steht. Allgemeiner kann man die IF-THEN-Regel als eine Verknüpfung der charakteristischen Funktion des Werts von A1 mit der Relation betrachten.

Die Darstellung der Relation durch die charakteristische Funktion ermöglicht die Verallgemeinerung der Relation zu einer unscharfen Relation und damit die Definition einer unscharfen Kategorisierung. Während bei der scharfen Relation nur 0 und 1 als Beschreibungen der Zugehörigkeit zur Teilmenge der Paare zulässig sind, sind bei der unscharfen Relation Zugehörigkeiten aus dem Intervall [0,1] erlaubt, z.B.:
mT= (
1 0,3 0,1
0 1 0,3
0 0 1
)

Eine unscharfe IF-THEN-Regel kann nun mit Hilfe einer unscharfen Relation folgendermaßen geschrieben werden: IF (A1=X) THEN A2=Y mit unscharfen Mengen X und Y . Die Zugehörigkeitsfunktion von Y ist dabei folgendermaßen definiert:
mY (y) =
sup
xMathematisches Zeichen: Element vonR1
{min (mX(x) ,mT(x,y)) }  Mathematisches Zeichen: fuer alleyMathematisches Zeichen: Element vonR2
Dabei werden x und y wie die Indices der Matrixelemente gelesen.

Diese von Zadeh vorgeschlagene Definition lehnt sich an das Produkt zwischen dem Vektor und der Matrix an. Die Multiplikation wird dabei durch das Minimum ersetzt und die Addition durch die Supremumsbildung. Das Ergebnis dieser unscharfen Kategorisierung ist eine unscharfe Menge, also eine Zugehörigkeitsfunktion.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Cluster und unscharfe Mengen
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.4.2Unscharfe Mengen
Def. 17 Unscharfe Menge
Def. 18 Träger, Kern, Schnitte und Höhe
Abb. 66 Unscharfe Mengen zur Beschreibung von Lebensaltern
Satz 3 Festlegung durch Schnitte
Abb. 67 Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den Alpha-Schnitten
Def. 19 Vereinigung, Durchschnitt und Komplement
Abb. 68 Vereinigung und Durchschnitt von unscharfen Mengen
unscharfe Menge, Cluster-Verfahren, Fuzzy Set, Grad der Mitgliedschaft, Zugehörigkeitsfunktion, membership function, unscharfe Menge, Grundbereich, Grad der Zugehörigkeit, scharfe Menge, charakteristische Funktion, Vektorraummodell, leere unscharfe Menge, Träger, support, Alpha-Schnitt, Schnitt, Kern, Höhe, Durchschnitt, Vereinigung, Durchschnitt, unscharfes Schließen, unscharfe Relation, vorherzusagendes Attribut, vorhersagendes Attribut Alpha-Schnitt, charakteristische Funktion, Cluster-Verfahren, Durchschnitt, Durchschnitt, Fuzzy Set, Grad der Zugehörigkeit, Grad der Mitgliedschaft, Grundbereich, Höhe, Kern, leere unscharfe Menge, membership function, scharfe Menge, Schnitt, support, Träger, unscharfe Menge, unscharfe Menge, unscharfe Relation, unscharfes Schließen, Vektorraummodell, Vereinigung, vorhersagendes Attribut, vorherzusagendes Attribut, Zugehörigkeitsfunktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.