![]() |
![]() |
![]() |
![]() |
Auch bei den kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit von Termen zur Berechnung von Termgewichten herangezogen. Dabei wird i. A. davon ausgegangen, dass Terme, die häufig in einem Dokument auftreten, für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einem Dokument direkt in der Form
Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z. B. die Formel
{1,...n}
Andere lokale Gewichtungsmethoden nutzen Informationen über die Struktur der verwalteten Dokumente. Dokumente in Literaturdatenbanken, wie sie z. B. in der Abblildung _1.2_ dargestellt wurden, haben verschiedene Felder, denen unterschiedliche Gewichtungen zugeordnet werden können. So kann ein Term, der in einem Titel auftaucht, höher gewichtet werden als einer, der im Abstract eines Dokuments auftaucht.
Ähnliche Möglichkeiten bieten Dokumente, die eine logische Struktur aufweisen, wie Texte, die mit SGML (Standard General Markup Language) (siehe Abschnitt 3.4.3.2 ) oder latex formatiert sind. Bei solchen Dokumenten sind verschiedene Textteile, wie Kapitel, Sektionen, Absätze und die dazugehörigen Überschriften im Quelltext markiert. Dadurch können z. B. Terme, die in einer Kapitelüberschrift auftauchen, stärker gewichtet werden als solche, die nur in einer Fußnote auftauchen.
Auch die Position eines Terms in einem Text kann zur Gewichtung genutzt werden. Meldungen von Nachrichtenagenturen weisen z. B. häufig eine ziemlich verläßliche inhaltliche Struktur auf: zunächst wird die wesentliche Neuheit mitgeteilt, die der Grund der Meldung ist, dann werden die Hintergründe kurz erläutert und schliesslich werden noch Details und Kommentare angeschlossen. Hier ist es also sinnvoll, Terme, die am Anfang des Textes stehen, höher zu gewichten als später auftretende Terme. Auch viele Suchmaschinen im WWW scheinen die Position von Termen in diesem Sinne zu gewichten.
![]() |
![]() |
![]() |
![]() |