R. Ferber: Data Mining & Information Retrieval 1.7.2.2.12

6.1.2.2: Term-Term-Matrizen

Um Ähnlichkeiten zwischen Termen zu bestimmen, kann man die n×n - Matrix W^t·W berechnen. Der Eintrag w^-_i,j in dieser Matrix ist dann das Skalarprodukt der i - ten und der j - ten Spalte der Matrix. Die i - te Spalte ist ein Vektor, der angibt, wie wichtig der Term t_i für die einzelnen Dokumente d₁,...,d_m ist, bzw. welchen Wert das Attribut A_i in den einzelnen Dokumenten d₁,...,d_m annimmt.

Im Booleschen Fall sind das jeweils binäre Vektoren, die angeben, ob der Term t_i im Dokument d_k vorkommt ( w_k,i=1 ) oder nicht ( w_k,i=0 ). Der Eintrag w^-_i,j in der Matrix W^t·W gibt in diesem Fall nach der Definition des Skalarprodukts also gerade die Anzahl der Dokumente an, in denen die Terme t_i und t_j gemeinsam vorkommen. In den allgemeineren Fällen von gewichteten Termen, bzw. Attributen gibt der entsprechende Eintrag einen Ähnlichkeitswert an. Es können auch andere Ähnlichkeitsmaße verwendet werden, wie sie in Abschnitt _3.4.5_ besprochen wurden. Die dort für die Dokumente diskutierten Eigenschaften der einzelnen Maße lassen sich auch auf die Terme übertragen.

Die n×n - Matrix W^t·W wird Term-Term-Matrix genannt. Sind die Ähnlichkeiten symmetrisch, ist also s(t_i,t_j)=s(t_j,t_i) für alle Terme t_i und t_j , ist auch die Term-Term-Matrix symmetrisch.