Metasuchdienste [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Web-Suchmaschinen
Stichwörter dieser Seite	Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4.3.4.4: Metasuchdienste

Metasuchdienste sind Systeme, die eine Anfrage an verschiedene Suchmaschinen schicken und die zurückgelieferten Ergebnisse gemeinsam darstellen. Dieser Ansatz kann verschiedene Vorteile bieten: Zum einen können verschiedene Suchmaschinen unterschiedliche Teile des Web abdecken oder besonders gut absuchen, zum anderen können durch die unterschiedlichen Suchverfahren mehr relevante Dokumente gefunden werden. Diese Vorteile kommen aber den Nutzenden nur dann wirklich zugute, wenn die Ergebnisse entsprechend aufbereitet werden. Dazu müssen vor allem zwei Probleme gelöst werden:

Da die verschiedenen Suchmaschinen unterschiedliche Methoden verwenden, haben sie in der Regel auch unterschiedliche Formate und Strategien für die Formulierung von Anfragen. Diese Unterschiede können auf allen Ebenen der Fragekonstruktion liegen: Angefangen bei Namen und Anzahl der Eingabefelder oder der gewählten Vokabularien zur Kennzeichnung von Sprachen, Ländern oder Klassifikationen über unterschiedliche Schreibweisen von Bedingungen, Einschränkungen und Verknüpfungen bis hin zu unterschiedlichen Suchmethoden wie boolescher Suche, Wortabstandsoperatoren (proximity search), Ranking oder einer Kombination daraus, und schließlich zu qualitativen Unterschieden, also z.B. der Frage, wie lang eine Anfrage am besten sein sollte. Die Suchmaschinen können sich aber auch darin unterscheiden, welche Teile des Web sie (besonders gut) abdecken. Die Teile können durch Dokumentformate, Sprachen oder Länder, Top-Level-Domain-Namen (wie .edu, oder .com) oder Suchstrategien bestimmt sein.

Um mehr als eine Zusammenstellung von Links auf einzelne Suchmaschinen zu sein, müssen Metasuchmaschinen deshalb ein Anfrageformat entwickeln, das den Informationsbedarf der Nutzenden so erfasst, dass sie die Möglichkeiten der Anfrageformate und Suchmethoden der verwendeten Suchmaschinen möglichst gut nutzen, ohne dabei zu lang oder zu kompliziert zu werden.

Ergebniszusammenstellung

Die zweite Herausforderung besteht darin, die zurückgelieferten Ergebnisse in einer einheitlichen Ergebnisdarstellung zu organisieren. Dabei können unterschiedliche Grade der Integration angestrebt und erreicht werden. Die einfachste Darstellung ist die Auflistung der Ergebnisse der einzelnen Suchmaschinen. Ein erster Schritt der Integration kann darin bestehen, Dokumente, die von mehreren Suchmaschinen gefunden wurden, nur einmal anzuzeigen. Diese "Dubletten-Eliminierung" ist vergleichsweise einfach, solange die Gleichheit nur über eine identische Web-Adresse (URL) bestimmt wird. Wenn auch versucht werden soll, Dokumente, die unter mehreren Adressen angeboten werden, als gleich zu erkennen, wird diese Aufgabe schon schwieriger und erfordert gegebenenfalls eine Analyse der Dokumente selbst. In der Darstellung der Ergebnismenge können die Dokumente - nachdem die Dubletten beseitigt wurden - nach der Anzahl der Suchmaschinen, von denen sie gefunden wurden, sortiert angezeigt werden.

Komplizierter wird es, wenn Ergebnisse, die als Rangfolgen verschiedener Suchmaschinen vorliegen, in eine gemeinsame Rangfolge gebracht werden sollen. Ein Ansatz dazu wäre, die Dokumente mit einem gemeinsamen Ähnlichkeitsmaß mit der Anfrage zu vergleichen, wie es im Vektorraummodell beschrieben wurde. Dazu müssen die entsprechenden Parameter der Einzelsammlungen bekannt sein, und es muss möglich sein, daraus die notwendigen Daten der Vereinigung der Sammlungen zu berechnen. Für das Vektorraummodell mit TF-IDF-Gewichten müssten z.B. die Gewichte neu berechnet werden, da die Dokumenthäufigkeiten der Terme der Anfrage, die ja in die Gewichte der Terme eingehen, von der Sammlung abhängen. Es müsste also quasi zunächst eine gemeinsame Sammlung gebildet werden, aus der alle Dubletten entfernt sind - letztendlich also ein Verfahren, das die Idee der Metasuche offensichtlich sprengt, da eine neue, gemeinsame Sammlung zugrunde gelegt wird und diese neu indexiert werden muss.

Metasuchdienste, die das vermeiden wollen oder müssen, versuchen mit den gegebenen Daten der einzelnen Suchergebnisse eine neue Rangfolge zu bilden. Welche Verfahren dabei verwendet werden können, hängt von den Daten ab, die von den einzelnen Suchmaschinen geliefert werden. In der Regel sind das nur die Daten, die auch in den Ergebnisseiten angezeigt werden. Initiativen, zusätzliche Parameter der Sammlungen zur Verfügung zu stellen, scheinen weitgehend im Sande verlaufen zu sein.

Will man die Ergebnislisten mehrerer Suchmaschinen in eine gemeinsame Liste zusammenführen, muss man davon ausgehen, dass die verschiedenen Suchmaschinen unterschiedlich gute Ergebnismengen liefern. Wie oben beschrieben, ist das ja gerade einer der Gründe, Metasuchmaschinen einzusetzen. Dabei hängt es in der Regel von der Anfrage ab, welche Suchmaschine besonders geeignet ist und welche Ergebnisse weniger gut sind. Das heißt, dass ein Dokument, das bei einer Ergebnisliste auf einem hohen (und damit schlechten) Rang steht, immer noch besser sein kann als das erste Dokument einer anderen Ergebnisliste. Wenn also reine Rangordnungen (also Daten auf Ordinalskalenniveau) zur Verfügung stehen, gibt es nur wenige Möglichkeiten, darauf eine sinnvolle Rangordnung zu konstruieren. Aber auch wenn Ähnlichkeitswerte zur Verfügung stehen, können diese auf sehr unterschiedliche Weise berechnet werden, selbst wenn - wie beim Cosinus-Maß - das Intervall der möglichen Ähnlichkeiten bekannt ist.

Das Zusammenführen der Ergebnisse verschiedener Suchmaschinen entspricht teilweise der Database-Merging-Aufgabe aus den TREC-Experimenten (siehe Abschnitt 3.4.6 ). Bei dieser Aufgabe wurden verschiedene Teilsammlungen zur Verfügung gestellt, aus denen einzelne Ergebnislisten berechnet und zu einer gemeinsamen Ergebnisliste zusammengeführt werden mussten. Die TREC-Aufgabe war einfacher als eine Merging-Aufgabe mit echten Web-Dokumenten, weil auf den Teilsammlungen der gleiche Algorithmus für die Suche verwendet wurde und dessen Details bekannt waren. Zudem waren die Teilsammlungen im Vergleich zum Web ziemlich homogen.

Suchagenten

Neben dem Zusammenführen von Ergebnislisten können auch die Dokumente, die von den einzelnen Suchmaschinen angezeigt werden, automatisch aus dem Web geladen und verglichen werden. Das führt zu einem entsprechend hohen Rechen- und Zeitaufwand. Deshalb werden solche Verfahren häufig als Programme realisiert, die auf dem Rechner der Nutzenden installiert sind.

In diese Programme können weitere Hilfsmittel wie Relevance Feedback, die Suche nach Dokumenten, die zu einem gegebenen Dokument ähnlich sind, Nutzungsprofile oder regelmäßig wiederholte Suchanfragen eingebaut werden. Wenn solche Programme weitere Eigenschaften wie Zielorientierung, Flexibilität und Anpassungsfähigkeit, Kommunikationsfähigkeit und ein gewisses Eigenleben haben, spricht man auch von Suchagenten oder Searchbots. Eine Beschreibung verschiedener Suchagenten findet sich bei Bekavac (2001) [->] . Der Begriff Agent wird dabei wie häufig ziemlich unscharf benutzt. Hier geht es mehr um den Aspekt "intelligenter und autonom handelnder Agent", nicht um die Mobilität, die in anderen Zusammenhängen wichtig ist.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Web-Suchmaschinen

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

4.3.4.4

Metasuchdienste

Klassifikation, Rangfolge, Vektorraummodell, TF-IDF, Dokumenthäufigkeit, Ordinalskala, Cosinus-Maß

Cosinus-Maß, Dokumenthäufigkeit, Klassifikation, Ordinalskala, Rangfolge, TF-IDF, Vektorraummodell

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.