Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Web-Suchmaschinen
Stichwörter dieser Seite Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.4.2: Ranking-Strategien

Wie bereits in Abschnitt 1.3.6 beschrieben, werden Vektorraummodelle ebenso wie boolesche Systeme mit invertierten Listen (oder effektiveren invertierten Verweismethoden) implementiert. Man kann daher die Suche mit Suchtermen in zwei Schritte aufteilen: das Bestimmen der Ergebnismenge (also in der Regel der Menge der Dokumente, in denen einer der angegebenen Terme vorkommt) und die Anordnung dieser Menge in eine Rangordnung. Diese zwei Schritte werden von Web-Suchmaschinen teilweise in den Eingabeformularen explizit unterschieden. Da das Web als Dokumentmenge sehr groß ist und viele Anfragen an Web-Suchmaschinen aus wenigen, meistens auch nicht sehr spezifischen Begriffen bestehen, liefert der erste Schritt oft eine sehr große Ergebnismenge, von der sich die Nutzenden nur einen Bruchteil ansehen. Durch den zweiten Schritt, die Anordnung der Dokumente in eine Rangordnung, wird daher bestimmt, welche Dokumente zuerst angezeigt und daher überhaupt angesehen werden.

Im Vektorraummodell wird die Rangordnung durch das Ähnlichkeitsmaß bestimmt, das auf den Gewichten der Dokument- und Anfragevektoren aufbaut. Bei der Berechnung der Gewichte spielen vor allem die Termhäufigkeit, die logische und textuelle Position des Terms im Dokument und die Länge des Dokuments als lokale Einflussfaktoren eine Rolle. Die textuelle Position ist dabei die Position eines Terms in der Folge der Wörter des Dokuments; die logische Position wird durch den Dokumentteil, in dem ein Term steht, bestimmt - in HTML-Dokumenten also insbesondere durch die HTML-Tags, zwischen denen er steht.

Eine Strategie, die textuelle Position zu nutzen, war für Meldungen von Nachrichtenagenturen bereits in Abschnitt 1.3.6.3.2 beschrieben worden. Sie besteht darin, vor allem die Anfänge der Dokumente zu berücksichtigen oder Termen am Beginn eines Dokuments größere Gewichte zu geben als solchen, die weiter hinten im Text stehen. Diese Strategie wird von einigen Suchmaschinen auf alle Web-Dokumente angewendet.

Um die logische Position eines Terms zu nutzen, werden beispielsweise Terme, die zwischen Title-Tags stehen - also im Titel des Dokuments - stärker gewichtet als solche, die im normalen Text auftauchen.

Diese klassischen Gewichtungsverfahren wurden vor allem für homogene Dokumentensammlungen entwickelt, also für Sammlungen, in denen alle Dokumente die gleiche oder eine ähnliche Struktur haben. Da davon im Web sicherlich nicht ausgegangen werden kann, ist es sinnvoll, weitere Eigenschaften der Web-Seiten und Angebote in die Berechnung der Rangordnung einzubeziehen. Das kann dadurch geschehen, dass solche Eigenschaften als zusätzliche Einträge in den Dokumentvektor eingebaut werden, oder dass diese Eigenschaften als zusätzliche Filter "vor" die Ähnlichkeitsfunktion geschaltet werden. Als solche Eigenschaften kommen z.B. die Web-Adressen in Frage (also der Anbieter der Seiten bzw. der Server, auf dem sie liegen) oder Teile daraus, wie die Top-Level-Domain der Adresse.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Web-Suchmaschinen
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.4.2Ranking-Strategien
Vektorraummodell, invertierte Liste, Termhäufigkeit, Dokumentvektor Dokumentvektor, invertierte Liste, Termhäufigkeit, Vektorraummodell

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.