| ||||||||||||||||||||||||||||||||||
1.3.6.3.2: Lokale GewichtungseinflüsseAuch bei den kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einem Dokument zur Berechnung von Termgewichten herangezogen (Termhäufigkeit, term frequency, TF). Dabei wird im Allgemeinen davon ausgegangen, dass Terme, die häufig in einem Dokument auftreten, für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einem Dokument direkt in der Form
![]() Andere lokale Gewichtungsmethoden nutzen Informationen über die Struktur der verwalteten Dokumente. Dokumente in Literaturdatenbanken, wie sie z.B. in Abbildung 1 dargestellt wurden, haben verschiedene Felder, denen unterschiedliche Gewichtungen zugeordnet werden können. So kann ein Term, der in einem Titel auftaucht, höher gewichtet werden als einer, der im Abstract eines Dokuments auftaucht. Ähnliche Möglichkeiten bieten Dokumente, die eine logische Struktur aufweisen wie Texte, die mit SGML (Standard Generalized Markup Language) (siehe Abschnitt 4.1.1 ) oder Latex formatiert sind. Bei solchen Dokumenten sind verschiedene Textteile wie Kapitel, Sektionen, Absätze oder die dazugehörigen Überschriften im Quelltext markiert. Dadurch können z.B. Terme, die in einer Kapitelüberschrift auftauchen, stärker gewichtet werden als solche, die nur in einer Fußnote auftauchen. Auch die Position eines Terms in einem Text kann zur Gewichtung genutzt werden. Meldungen von Nachrichtenagenturen weisen z.B. häufig eine ziemlich verlässliche inhaltliche Struktur auf: Zunächst wird die wesentliche Neuigkeit mitgeteilt, die der Grund der Meldung ist, dann werden die Hintergründe kurz erläutert und schließlich werden noch Details und Kommentare angeschlossen. Hier ist es also sinnvoll, Terme, die am Anfang des Textes stehen, höher zu gewichten als später auftretende Terme. Auch einige Web-Suchmaschinen scheinen die Position von Termen in diesem Sinne zu gewichten. | ||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.