6.1.2.2: Term-Term-Matrizen
Um Ähnlichkeiten zwischen Termen zu bestimmen, kann man die
n×n - Matrix Wt·W berechnen. Der Eintrag w-i,j in dieser Matrix ist dann das Skalarprodukt der
i - ten und der j - ten Spalte der Matrix. Die i - te Spalte ist ein Vektor, der angibt, wie
wichtig der Term ti für die einzelnen Dokumente d1,...,dm ist, bzw. welchen Wert das Attribut Ai in den einzelnen Dokumenten d1,...,dm annimmt.
Im Booleschen Fall sind das jeweils binäre Vektoren, die
angeben, ob der Term ti im Dokument dk vorkommt ( wk,i=1 ) oder nicht ( wk,i=0 ). Der Eintrag w-i,j in der Matrix Wt·W gibt in diesem Fall nach der Definition des
Skalarprodukts also gerade die Anzahl der Dokumente an, in denen die
Terme ti und tj gemeinsam vorkommen. In den allgemeineren Fällen
von gewichteten Termen, bzw. Attributen gibt der entsprechende Eintrag
einen Ähnlichkeitswert an. Es können auch andere
Ähnlichkeitsmaße verwendet werden, wie sie in Abschnitt
_3.4.5_
besprochen wurden. Die dort für die
Dokumente diskutierten Eigenschaften der einzelnen Maße lassen
sich auch auf die Terme übertragen.
Die n×n - Matrix Wt·W wird
Term-Term-Matrix genannt.
Sind die Ähnlichkeiten symmetrisch, ist also s(ti,tj)=s(tj,ti) für alle Terme ti und tj , ist auch die Term-Term-Matrix symmetrisch.
© 2000 / HTML-Version 14. 1. 2000: R. Ferber