ZURÜCK

6.1.2.2: Term-Term-Matrizen

Um Ähnlichkeiten zwischen Termen zu bestimmen, kann man die n×n - Matrix Wt·W berechnen. Der Eintrag w-i,j in dieser Matrix ist dann das Skalarprodukt der i - ten und der j - ten Spalte der Matrix. Die i - te Spalte ist ein Vektor, der angibt, wie wichtig der Term ti für die einzelnen Dokumente d1,...,dm ist, bzw. welchen Wert das Attribut Ai in den einzelnen Dokumenten d1,...,dm annimmt.

Im Booleschen Fall sind das jeweils binäre Vektoren, die angeben, ob der Term ti im Dokument dk vorkommt ( wk,i=1 ) oder nicht ( wk,i=0 ). Der Eintrag w-i,j in der Matrix Wt·W gibt in diesem Fall nach der Definition des Skalarprodukts also gerade die Anzahl der Dokumente an, in denen die Terme ti und tj gemeinsam vorkommen. In den allgemeineren Fällen von gewichteten Termen, bzw. Attributen gibt der entsprechende Eintrag einen Ähnlichkeitswert an. Es können auch andere Ähnlichkeitsmaße verwendet werden, wie sie in Abschnitt _3.4.5_ besprochen wurden. Die dort für die Dokumente diskutierten Eigenschaften der einzelnen Maße lassen sich auch auf die Terme übertragen.

Die n×n - Matrix Wt·W wird Term-Term-Matrix genannt. Sind die Ähnlichkeiten symmetrisch, ist also s(ti,tj)=s(tj,ti) für alle Terme ti und tj , ist auch die Term-Term-Matrix symmetrisch.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber