4.4.2.1:
Term-Term-Matrizen
Um Ähnlichkeiten zwischen Termen zu bestimmen, kann man die
n×n - Matrix Wt·W berechnen. Der Eintrag w-i,j in dieser Matrix ist
dann das Skalarprodukt der i - ten und der j - ten Spalte der Matrix.
Die i - te Spalte ist ein Vektor, der angibt,
wie wichtig der Term ti für die einzelnen Dokumente d1,...,dm ist, bzw. welchen Wert das Attribut Ai in den einzelnen Dokumenten d1,...,dm annimmt.
Im Booleschen Fall sind das jeweils
binäre Vektoren, die angeben, ob der Term
ti im Dokument dk vorkommt ( wk,i=1 ) oder nicht ( wk,i=0 ). Der Eintrag w-i,j in der
Matrix Wt·W gibt in diesem Fall nach
der Definition des Skalarprodukts also gerade die Anzahl
der Dokumente an, in denen die
Terme ti und tj gemeinsam vorkommen. In den allgemeineren Fällen von gewichteten Termen,
bzw. Attributen gibt der entsprechende Eintrag einen
Ähnlichkeitswert an. Es können auch andere Ähnlichkeitsmaße
verwendet werden, wie sie in Abschnitt
_3.4.6_
besprochen wurden. Die dort für die
Dokumente diskutierten Eigenschaften der einzelnen Maße lassen
sich auch auf die Terme übertragen.
Die n×n - Matrix Wt·W wird
Term-Term-Matrix genannt.
Sind die Ähnlichkeiten symmetrisch, ist also
s(ti,tj)=s(tj,ti) für alle Terme ti und tj , ist auch die Term-Term-Matrix
symmetrisch.
© 1999 / HTML-Version 13. 7. 1999: R. Ferber, email: R. Ferber