5.3: Das Vektorraummodell mit einer
Inverted Document Frequency Gewichtung
- Wie unterscheiden sich
globale und lokale
Einflussfaktoren bei der Gewichtung von
Termen?
- Beschreiben Sie einige globale und lokale Einflussfaktoren.
- Berechnen Sie für die ersten vier Titel aus Aufgabe
_3.1_
Blatt
_3_
die
gewichtete
Indexierung mit der globalen
Gewichtsformel
(m)/(d(i))
wobei m die Anzahl der Dokumente in der Sammlung (in diesem
Fall also die Anzahl der Titel) bezeichne und d(i) die Anzahl der Dokumente, in denen der Term
ti vorkommt. Ignorieren Sie bei der Bestimmung der Terme
Gross- und Kleinschreibung und behandeln Sie alle Nicht-Buchstaben als
Worttrenner. (Eine Datei mit den Titeln in der vorgesehenen Form finden
Sie unter
http://www.darmstadt.gmd.de/~ferber/ubung/docs.txt)
- Welche lokalen Einflussfaktoren könnten in diesem Fall zur
Gewichtung verwendet werden?
- Berechnen Sie mit dem Skalarprodukt die Ähnlichkeit der vier
Titel zur Anfrage
indexing structure for a speech database
© 1999 / HTML-Version 7. 7. 1999: R. Ferber, email: R. Ferber