R. Ferber: Data Mining & Information Retrieval 1.7.4

6.3: Social Filtering

In den meisten bisher vorgestellten Retrieval- oder Filtersystemen wird versucht, Dokumente und ihre Eigenschaften inhaltlich zu beschreiben und auf der Basis dieser Beschreibungen solche Dokumente auszuwählen, die einen gegebenen Informationsbedarf befriedigen. Dabei war eine der wichtigsten Beobachtungen, dass es oft schwierig ist, die für Menschen wichtigen Inhalte und Eigenschaften mit automatischen Verfahren zu erfassen. Deshalb werden die Dokumente in vielen Sammlungen von Experten, die die Dokumente nur zu diesem Zweck lesen, manuell indexiert oder in Klassen eingeteilt. Dieses Verfahren ist aufwändig.

Andererseits werden in vielen Bereichen, wie z. B. bei Newsgroups im Internet, Dokumente von vielen Personen gelesen, weil sie an den Inhalten interessiert sind. So liegt es nahe, die Einschätzungen, die diese Personen über ein Dokument haben, oder die Art, wie sie es nutzen, zu verwenden, um abzuschätzen, ob es für andere Personen von Interesse ist. Weil dabei nicht die Eigenschaften der Dokumente im Mittelpunkt stehen, sondern das Verhalten oder die Meinung der Mitglieder einer Nutzendengruppe spricht man von "Social Filtering". Dieser Ansatz ist natürlich nicht auf Dokumente und Artikel beschränkt, er kann auf beliebige Objekte, wie z. B. Kinofilme, SchauspielerInnen, Fersehsendungen, Musiktitel oder -interpretInnen verallgemeinert werden.

Um diese Idee umzusetzen, kann man Nutzende bitten, ihre Einschätzung zu den verschiedenen Dokumenten oder Objekten anzugeben. Dazu können einfache binäre Attribute ("gefällt mir" / "gefällt mir nicht" bzw. "love it" / "hate it") verwendet werden, oder auch feiner unterteilte Skalen. Im Unterschied zum einfachen Relevance Feedback werden die Rückmeldungen hier aber nicht dazu verwendet, in einem weiteren Suchschritt eine bessere Ergebnismenge zu finden, sondern dazu die Dokumente oder Objekte für andere Nutzende quasi zu indexieren: Durch diese Angaben erhält man zu jedem Dokument einen Vektor, in dem die Angaben der verschiedenen Nutzenden als Einträge stehen. Man kann diesen Vektor mit einem Dokumentvektor vergleichen: So wie ein Dokument dadurch beschrieben werden kann, dass man für jeden Term eines Vokabulars angibt, wie wichtig er für das Dokument ist, so kann ein Dokument oder Objekt auch dadurch beschrieben werden, dass man angibt, wie verschiedene Nutzende es einschätzen. Man kann diese Vektoren als Spalten einer Matrix schreiben. In einer Zeile dieser Matrix stehen dann die Einschätzungen einer Person zu den verschiedenen Dokumenten oder Objekten. Durch verschiedene Zeilenvektoren werden die Vorlieben verschiedener Personen beschrieben. Sie können genutzt werden, um für ein Dokument oder ein Objekt, das eine bestimmte Person noch nicht kennt, vorherzusagen, wie diese Person es einschätzen wird. Dazu müssen allerdings bereits genügen Angaben von anderen Personen vorliegen.

Shardanand und Maes (1995 [->]) entwickelten ein System "Ringo" mit dem individuelle Musik Empfehlungen gegeben werden können. Als Empfehlung wird eine Vorhersage der Einschätzung der Person verwendet, die auf den Urteilen von Personen, die für andere Dokumente ähnliche Einschätzungen gemacht haben, basiert. Dazu werden zunächst die Zeilenvektoren ermittelt, die einen Eintrag für das zu bewertende Objekt besitzen und dem Vektor der Person, für die die Vorhersage gemacht werden soll, ähnlicher sind als eine vorgegebene Schranke. Um die Ählichkeit zu bestimmen, verwenden Shardanand und Maes drei verschiedene Ähnlichkeitsmaße:

den invertierten Wert des mittleren Quadrats der Differenzen der einzelnen Einträge
den Korrelationskoeffizienten zwischen den Vektoren
einen modifizierten Korrelationskoeffizienten, der nur solche Wertepaare berücksichtigt, die beide in der gleichen Richtung liegen

Bei der Berechnung der Ähnlichkeit muss darauf geachtet werden, dass fehlende Einträge in den Zeilenvektoren richtig behandelt werden, dass also im Allgemeinen nur solche Wertepaare berücksichtigt werden, für die in beiden Vektoren Einträge vorhanden sind.

Als Vorhersage wird die mit den Ähnlichkeiten gewichtetet Summe der Einträge für das zu beschreibende Dokument oder Objekt in den ausgewählten Zeilenvektoren verwendet.

Aufgrund von so berechneten Werten kann "Ringo" Nutzenden zum einen Platten vorschlagen, die sie vermutlich mögen werden oder sie vor Platten warnen, die sie vermutlich nicht mögen werden. Schließlich kann "Ringo" für einzelne Platten oder Interpreten eine Vorhersage darüber abgeben, wie gut sie der Person gefallen werden.

Einen ähnlichen Ansatz verfolgt das System GroupLense (Konstan, Miller, Herlocker, Gordon, and Riedl 1997 [->]). Es dient dazu Artikel aus Newsgroups zu bewerten, um einer oder einem Nutzenden gezielt solche Artikel anzubieten, die sie oder ihn besonders interessieren.

Die Aufgabenstellung des Social Filtering kann als eine Kateogrisierungsaufgabe gesehen werden: Aus den vorhandenen Einträgen oder Attributwerten einer Person (den vorhersagenden Attributen) soll ein Attributwert für das neue Objekt oder Dokument (vorherzusagendes Attribut) bestimmt werden. Die verwendeten Methoden stammen allerdings aus dem Bereich des Information Retrieval. Das liegt vor allem daran, dass es sich um eine typische vage Aufgabe handelt, bei der nicht erwartet werden kann, dass die Trainingsdaten konsistent sind.

Ein typisches Problem mit dem Systeme, die Social Filtering Methoden verwenden zu kämpfen haben, ist die geringe Bereitschaft von Nutzenden Einschätzungen mitzuteilen. Das kann zum einen am zusätzlichen Bedienungsaufwand liegen, zum anderen aber vor allem auch daran, dass dazu eine Entscheidung gefällt werden muss, die einen zusätzlichen mentalen Aufwand bedeutet. Neben expliziten Bewertungen, bei denen die Nutzenden angeben müssen, wie sie das Dokument einschätzen, werden deshalb auch implizite Bewertungsverfahren untersucht, die z. B. zu messen versuchen, wie lange sich Nutzende mit einem Dokument oder Objekt beschäftigen, oder ob das Dokument gedruckt oder gespeichert wird. Solche impliziten Maße erscheinen natürlich zunächst weniger zuverlässig. Es gibt aber z. B. bei Konstan et al. (1997) Hinweise, dass zumindest bei Newsgroups die Lesezeit gut mit den expliziten Bewertungen korreliert. Bei impliziten Bewertungen muss natürlich darauf geachtet werden, dass Privatspähre der Nutzenden nicht verletzt wird.

Ein weiteres Problem liegt darin, dass in der Regel pro Person nur Einträge zu wenigen Dokumenten oder Objekten vorliegen. Das kann daran liegen, dass die Gesamtzahl der Objekte zu groß ist, um von einer Person begutachtet werden zu können. Aber auch für Dokumente oder Objekte, die neu aufgenommen werden, liegen zunächst keine Einschätzungen vor. Bei Texten kann man in diesem Fall versuchen z. B. über die (dokumentvektorbasierte) Ähnlichkeit zu Dokumenten, für die Bewertungen vorliegen, erste Einschätzungen zu generieren.

Schließlich liegen bei Anwendungen weitere Probleme in der schnellen und effizienten Übermittlung und Verwaltung der großen Datenmengen, die anfallen wenn viele Dokumente und eine große Anzahl Nutzende verwaltet werden müssen. Mögliche Strategien um diese Datenmenge zu reduzieren, liegen z. B. darin, mehrere Nutzende mit ähnlichen Vektoren zusammenzufassen. Dadurch kann sich auch die Anzahl der bewerteten Dokumente oder Objekte pro Vektor erhöhen.