Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Stichwörter dieser Seite Attribut, Dokumentvektor, Ähnlichkeitsmaß, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.5.7: Social oder Collaborative Filtering

In den meisten bisher vorgestellten Retrieval- oder Filtersystemen wird versucht, Dokumente und ihre Eigenschaften inhaltlich zu beschreiben und auf der Basis dieser Beschreibungen solche Dokumente auszuwählen, die einen gegebenen Informationsbedarf befriedigen. Dabei war eine der wichtigsten Beobachtungen, dass es oft schwierig ist, die für Menschen wichtigen Inhalte und Eigenschaften mit automatischen Verfahren zu erfassen. Deshalb werden die Dokumente in vielen Sammlungen von Experten, die die Dokumente nur zu diesem Zweck lesen, manuell indexiert oder in Klassen eingeteilt. Dieses Verfahren ist aufwändig.

Andererseits werden in vielen Bereichen, wie bei Newsgroups im Internet, Dokumente von vielen Personen gelesen, weil sie an den Inhalten interessiert sind. So liegt es nahe, die Einschätzungen, die diese Personen über ein Dokument haben, oder die Art, wie sie es nutzen, zu verwenden, um abzuschätzen, ob es für andere Personen von Interesse ist. Weil dabei nicht die Eigenschaften der Dokumente im Mittelpunkt stehen, sondern das Verhalten oder die Meinung der Mitglieder einer Gruppe von Nutzenden, spricht man von Social Filtering. Dieser Ansatz ist natürlich nicht auf Dokumente und Artikel beschränkt, er kann auf beliebige Objekte, wie Kinofilme, Schauspieler, Fernsehsendungen, Musiktitel oder -interpretinnen, verallgemeinert werden.

Bewertungsmatrix

Um diese Idee umzusetzen, kann man Nutzende bitten, ihre Einschätzung zu den verschiedenen Dokumenten oder Objekten anzugeben. Dazu können einfache binäre Attribute ("gefällt mir"/"gefällt mir nicht" bzw. "love it"/"hate it") verwendet werden oder auch feiner unterteilte Skalen. Im Unterschied zum einfachen Relevance Feedback werden die Rückmeldungen hier aber nicht dazu verwendet, in einem weiteren Suchschritt eine bessere Ergebnismenge zu finden, sondern dazu, die Dokumente oder Objekte für andere Nutzende quasi zu indexieren: Durch diese Angaben erhält man zu jedem Dokument einen Vektor, in dem die Angaben der verschiedenen Nutzenden als Einträge stehen. Man kann diesen Vektor mit einem Dokumentvektor vergleichen: So wie ein Dokument dadurch beschrieben werden kann, dass man für jeden Term eines Vokabulars angibt, wie wichtig er für das Dokument ist, so kann ein Dokument oder Objekt auch dadurch beschrieben werden, dass man angibt, wie verschiedene Nutzende es einschätzen.

Man kann diese Vektoren als Spalten einer Matrix schreiben. In einer Zeile dieser Matrix stehen dann die Einschätzungen einer Person zu den verschiedenen Dokumenten oder Objekten. Durch verschiedene Zeilenvektoren werden die Vorlieben verschiedener Personen beschrieben. Sie können genutzt werden, um für ein Dokument oder ein Objekt, das eine bestimmte Person noch nicht kennt, vorherzusagen, wie diese Person es einschätzen wird. Dazu müssen allerdings bereits genügen Angaben von anderen Personen vorliegen.

Empfehlungssystem Ringo

Shardanand und Maes (1995) [->] entwickelten ein System "Ringo", mit dem individuelle Musikempfehlungen gegeben werden können. Als Empfehlung wird eine Vorhersage der Einschätzung der Person verwendet, die auf den Urteilen von Personen basiert, die für andere Dokumente ähnliche Einschätzungen gemacht haben. Dazu werden zunächst die Zeilenvektoren ermittelt, die einen Eintrag für das zu bewertende Objekt besitzen und dem Vektor der Person, für die die Vorhersage gemacht werden soll, ähnlicher sind als eine vorgegebene Schranke. Um die Ähnlichkeit zu bestimmen, verwenden Shardanand und Maes drei verschiedene Ähnlichkeitsmaße:

  • den invertierten Wert des mittleren Quadrats der Differenzen der einzelnen Einträge,
  • den Korrelationskoeffizienten zwischen den Vektoren und
  • einen modifizierten Korrelationskoeffizienten, der nur solche Wertepaare berücksichtigt, die beide in der gleichen Richtung liegen.
Bei der Berechnung der Ähnlichkeit muss darauf geachtet werden, dass fehlende Einträge in den Zeilenvektoren richtig behandelt werden, dass also im Allgemeinen nur solche Wertepaare berücksichtigt werden, für die in beiden Vektoren Einträge vorhanden sind.

Als Vorhersage wird die mit den Ähnlichkeiten gewichtete Summe der Einträge für das zu beschreibende Dokument oder Objekt in den ausgewählten Zeilenvektoren verwendet. Aufgrund von so berechneten Werten kann "Ringo" Nutzenden zum einen Platten vorschlagen, die sie vermutlich mögen werden, oder sie vor Platten warnen, die sie vermutlich nicht mögen werden. Schließlich kann "Ringo" für einzelne Platten oder Interpreten eine Vorhersage darüber abgeben, wie gut sie der Person gefallen werden.

Weitere Anwendungen

Einen ähnlichen Ansatz verfolgt das System GroupLense (Konstan, Miller, Herlocker, Gordon und Riedl, 1997 [->] ). Es dient dazu, Artikel aus Newsgroups zu bewerten, um einer oder einem Nutzenden gezielt solche Artikel anzubieten, die sie oder ihn besonders interessieren. Auch im E-Commerce werden Social-Filtering-Verfahren eingesetzt. So schlägt der Online-Händler Amazon ([->] ) den Besucherinnen und Besuchern seines Web-Angebots mehr oder weniger individuelle Musik- und Buchempfehlungen vor, die durchaus gute Vorhersagen über die Interessen und den Geschmack der Nutzenden machen.

Allgemein kann die Aufgabenstellung des Social Filtering als eine Kategorisierungsaufgabe gesehen werden: Aus den vorhandenen Einträgen oder Attributwerten einer Person (den vorhersagenden Attributen) soll ein Attributwert für das neue Objekt oder Dokument (vorherzusagendes Attribut) bestimmt werden. Die verwendeten Methoden stammen allerdings häufig aus dem Bereich des Information Retrieval. Das liegt vor allem daran, dass es sich um eine typische vage Aufgabe handelt, bei der nicht erwartet werden kann, dass die Trainingsdaten konsistent sind. Beim E-Commerce können assoziative Regeln und Warenkorbmodelle verwendet werden.

Bewertungsmethoden

Ein typisches Problem, mit dem Systeme, die Social-Filtering-Methoden verwenden, zu kämpfen haben, ist die geringe Bereitschaft von Nutzenden, Einschätzungen mitzuteilen. Das kann zum einen am zusätzlichen Bedienungsaufwand liegen, zum anderen aber vor allem auch daran, dass dazu eine Entscheidung gefällt werden muss, die einen zusätzlichen mentalen Aufwand bedeutet. Neben expliziten Bewertungen, bei denen die Nutzenden angeben müssen, wie sie das Dokument einschätzen, werden deshalb auch implizite Bewertungsverfahren untersucht, die z.B. zu messen versuchen, wie lange sich Nutzende mit einem Dokument oder Objekt beschäftigen, oder ob das Dokument gedruckt oder gespeichert wird. Solche impliziten Maße erscheinen natürlich zunächst weniger zuverlässig. Es gibt aber z.B. bei Konstan et al. (1997) Hinweise, dass zumindest bei Newsgroups die Lesezeit gut mit den expliziten Bewertungen korreliert.

Bei der Auswertung von Daten, die Nutzende von Web-Angeboten liefern, können explizite und implizite Bewertungen auftreten. Mehr oder weniger explizit sind ausdrückliche Empfehlungen, Kaufentscheidungen, die Auswahl eines inhaltlich beschriebenen Links oder Suchfragen. Implizite Maße sind auch hier Verweilzeiten oder die Häufigkeit, mit der zu einer Seite zurückgekehrt wird. Besonders bei impliziten Bewertungen muss natürlich darauf geachtet werden, dass die Privatsphäre der Nutzenden nicht verletzt wird.

Ein weiteres Problem des Ansatzes besteht darin, dass in der Regel pro Person nur Einträge zu wenigen Dokumenten oder Objekten vorliegen. Das kann daran liegen, dass die Gesamtzahl der Objekte zu groß ist, um von einer Person begutachtet werden zu können. Aber auch für Dokumente oder Objekte, die neu aufgenommen werden, liegen zunächst keine Einschätzungen vor. Bei Texten kann man in diesem Fall versuchen z.B. über die (dokumentvektorbasierte) Ähnlichkeit zu Dokumenten, für die Bewertungen vorliegen, erste Einschätzungen zu generieren.

Schließlich liegen bei Anwendungen weitere Probleme in der schnellen und effizienten Übermittlung und Verwaltung der großen Datenmengen, die anfallen, wenn viele Dokumente und eine große Anzahl Nutzende verwaltet werden müssen. Mögliche Strategien zur Reduzierung dieser Datenmengen liegen z.B. darin, mehrere Nutzende mit ähnlichen Vektoren zusammenzufassen. Dadurch kann sich auch die Anzahl der bewerteten Dokumente oder Objekte pro Vektor erhöhen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.5.7Social oder Collaborative Filtering
Attribut, Dokumentvektor, Ähnlichkeitsmaß, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut Ähnlichkeitsmaß, Attribut, Dokumentvektor, GroupLense, Kategorisierung, vorhersagendes Attribut, vorherzusagendes Attribut

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.