Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Der probabilistische Retrieval-Ansatz
Stichwörter dieser Seite unabhängig, Relevanz, charakteristische Funktion, Quote, odds, Relevanzurteil, unabhängig, linked dependency assumption, Rangfolge, Retrieval-Status-Wert, retrieval status value, Relevance Feedback
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

3.2.2: Abschätzung des Retrieval-Status-Werts

Die Produktformel für die Wahrscheinlichkeit unabhängiger Ereignisse und die bayessche Formel werden im Folgenden verwendet, um mit vereinfachenden Annahmen die gesuchte Wahrscheinlichkeit für die Beurteilung der Relevanz eines Dokuments abzuschätzen. Sie kann jetzt als bedingte Wahrscheinlichkeit geschrieben werden. Dazu verwenden Fuhr und Buckley (1991) [->] und Fuhr (1995) [->] das Ereignis R "Ein Dokument wird als relevant eingeschätzt" und schreibt P(R | q,d) , also die bedingte Wahrscheinlichkeit dafür, dass eine Relevanz angegeben wird, unter der Bedingung, dass die Anfrage q und das Dokument d vorliegen.

Der zugrunde liegende Grundraum ist das kartesische Produkt G=D×Q×{R,NR} , wobei Q die Menge aller Anfragen und R bzw. NR die Beurteilung als relevant bzw. nicht relevant bedeuten. Die Schreibweise der Bedingung mit einem Komma entspricht dem Durchschnitt der Mengen, die durch geeignet definierte Attribute mit diesen Werten beschrieben werden können. Sei Ar:G->{R,NR} das Attribut, das angibt, ob ein Element aus dem Grundraum als relevant beurteilt wurde oder nicht, und Aq:G->Q das Attribut, das die verwendete Anfrage beschreibt, dann ist die Bedingung R,q=((Ar=R) Mathematisches Zeichen: Durchschnitt(Aq=q)) , also die Menge der Elementarereignisse, bei denen ein Dokument für die Anfrage q als relevant beurteilt wurde.

Um die bedingte Wahrscheinlichkeit P(R | q,d) abzuschätzen, geht man zunächst wieder zu einfacheren Repräsentationen von Dokument und Anfrage über: als Menge der Terme, die in ihnen vorkommen, oder als Vektoren aus binären Attributwerten, die das Auftreten eines Terms signalisieren. Dazu sei T={t1,...,tN} die Menge der Terme, die in einer Dokumentensammlung D vorkommen. Anfragen und Dokumente werden als Teilmengen qMathematisches Zeichen: TeilmengeT und dMathematisches Zeichen: TeilmengeT der Terme oder als charakteristische Funktionen
Ai (d) = {
1 falls tiMathematisches Zeichen: Element vond
0 sonst
dargestellt.

Neben der Wahrscheinlichkeit kann man als Maß für die Chance, dass ein Ereignis eintritt, den Quotient seiner Wahrscheinlichkeit mit der Wahrscheinlichkeit des Komplementärereignisses, die Quote des Ereignisses (odds) betrachten:

(142)
O (X) =
p( X)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(X- )
=
p(X)
Leere Abbildung mit der der Bruchstrich erzeugt wird
1-p(X)
Die Quote ist <1 für Wahrscheinlichkeiten <0,5 und >1 für Wahrscheinlichkeiten >0,5 . Sie ist streng monoton, liefert also dieselbe Rangfolge für Ereignisse wie die Wahrscheinlichkeit. Sie erlaubt aber manchmal einfacheres Rechnen.

Statt der gesuchten bedingten Wahrscheinlichkeit des gesuchten Ereignisses "Es wird ein positives Relevanzurteil unter der Bedingung des Dokuments d und der Anfrage q abgegeben" wird nun ihre Quote
O (R | q,d) =
p( R | q,d)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(R- | q,d)
abgeschätzt.

Zunächst folgt mit
p (d | RMathematisches Zeichen: Durchschnittq) =
p(dMathematisches Zeichen: DurchschnittRMathematisches Zeichen: Durchschnittq)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(RMathematisches Zeichen: Durchschnitt q)
und damit p(RMathematisches Zeichen: Durchschnittq)·p( d | RMathematisches Zeichen: Durchschnittq)=p(RMathematisches Zeichen: DurchschnittdMathematisches Zeichen: Durchschnitt q)
P (R | q,d) =
p(RMathematisches Zeichen: DurchschnittqMathematisches Zeichen: Durchschnittd)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(qMathematisches Zeichen: Durchschnittd)
=
p(d | RMathematisches Zeichen: Durchschnittq) ·p(RMathematisches Zeichen: Durchschnittq)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p( d | q)·p(q)
=
p(d | RMathematisches Zeichen: Durchschnittq) ·p(R | q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p( d | q)
Es folgt also
O (R | q,d) =
p( R | q,d)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(R- | q,d)
=
p(d | RMathematisches Zeichen: Durchschnittq) ·p(R | q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p( d | q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p( d | R-Mathematisches Zeichen: Durchschnittq) ·p(R- | q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(d | q)
=
p(R | q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(R- | q)
·
p(d | RMathematisches Zeichen: Durchschnittq)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(d | R-Mathematisches Zeichen: Durchschnitt q)
p(d | R,q) ist die bedingte Wahrscheinlichkeit eines Dokuments d unter der Bedingung, dass es zur Anfrage q als relevant beurteilt wird.

Um diese Wahrscheinlichkeit zu schätzen, müssten zu allen Anfragen Dokumente mit Relevanzbeurteilungen vorliegen. Da diese Abschätzung aber in der Regel mit zu großem Aufwand verbunden ist, wird die Berechnung im nächsten Schritt auf die Terme heruntergebrochen. Dazu wird die starke (und unrealistische) Annahme gemacht, dass das Auftreten von Termen in Dokumenten unabhängig ist. So ergibt sich (mit I={1,...,N} )
p (d | R,q) = p(
Mathematisches Zeichen: grosses logisches Und
iMathematisches Zeichen: Element vonI
(Ai=di)  | R,q) =
Mathematisches Zeichen: Produkt
iMathematisches Zeichen: Element vonI
p ( (Ai=di)  | R,q) =
Mathematisches Zeichen: Produkt
iMathematisches Zeichen: Element vonI
p (di | R,q)

Für die Quote gilt dann:
O (R | q,d) =
p( R | q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(R-  | q)
·
p( d | R,q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(d | R-,q)
=O ( R | q) ·
Mathematisches Zeichen: Produkt
iMathematisches Zeichen: Element vonI
p((Ai=d i) | R,q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p((Ai=di)  | R-,q)
Man kann die Unabhängigkeitsannahme etwas abschwächen, indem man direkt annimmt, dass
p(d | R,q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(d | R-,q)
=
Mathematisches Zeichen: Produkt
iMathematisches Zeichen: Element vonI
p( (Ai=di)  | R,q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(( Ai=di) | R-,q)
(die so genannte linked dependency assumption) gilt. Allerdings ist diese Annahme schwieriger zu interpretieren.

Zur weiteren Vereinfachung wird angenommen, dass für alle tiMathematisches Zeichen: Element vonT\q gilt, dass p(Ai=di | R,q) =p(Ai=di | R- ,q) ist. Das bedeutet, dass für alle Terme, die nicht in der Anfrage genannt werden, die Wahrscheinlichkeit, dass sie in einem relevanten Dokument auftreten, genauso groß ist wie die, dass sie in einem nicht relevanten Dokument auftreten. Um diese vereinfachende Annahme auszunutzen, spaltet man das Produkt auf:
O (R | q,d) =O ( R | q) ·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element vonI | tiMathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
p((Ai= di) | R,q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p((Ai=di ) | R-,q)
      ·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element von I | tiMathematisches Zeichen: Element vonq\d}
p((Ai=di ) | R,q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p( (Ai=di)  | R-,q)
      ·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element von I | ti&nisin;q}
p((Ai=di)  | R,q)
Leere Abbildung mit der der Bruchstrich erzeugt wird
p(( Ai=di) | R-,q)
Der letzte Faktor dieses Produkts ist aufgrund der vereinfachenden Annahme gleich 1, kann also weggelassen werden. Setzt man ri=p(Ai=1 | R,q) und ni=p(Ai=1 | R-,q) , so kann man schreiben
O (R | q,d) =O ( R | q) ·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element vonI | tiMathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
ri
Leere Abbildung mit der der Bruchstrich erzeugt wird
ni
·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element vonI  | tiMathematisches Zeichen: Element vonq\d}
1-ri
Leere Abbildung mit der der Bruchstrich erzeugt wird
1-ni
da Ai ja genau dann gleich 1 ist, wenn der Term ti im Dokument d vorkommt, und sonst gleich 0 . Da im ersten Produkt der Formel die Terme zusammengefasst sind, die im Dokument d vorkommen und im zweiten die, die nicht vorkommen, kann dort zur komplementären Wahrscheinlichkeit p(Ai=0 | R,q)=1 -ri bzw. p(Ai=0 | R- ,q)=1-ni übergegangen werden.

Meistens geht es darum, verschiedene Dokumente in eine Rangfolge bezüglich einer Anfrage zu bringen. Es interessieren also vor allem solche Faktoren des Produkts, die sich bei verschiedenen Dokumenten ändern. Um diese zu isolieren, kann man folgende Umformung vornehmen, bei der ein Faktor 1 aufmultipliziert und geeignet aufgespaltet wird:
O (R | q,d) =O ( R | q) ·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element vonI | tiMathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
ri
Leere Abbildung mit der der Bruchstrich erzeugt wird
ni
·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element vonI  | tiMathematisches Zeichen: Element vonq\d}
1-ri
Leere Abbildung mit der der Bruchstrich erzeugt wird
1-ni
·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element von I | tiMathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
(1-ri)( 1-ni)
Leere Abbildung mit der der Bruchstrich erzeugt wird
(1- ni)(1-ri )
Durch geeignetes Umgruppieren der Produkte erhält man
O (R | q,d) =O ( R | q) ·
Mathematisches Zeichen: Produkt
{iMathematisches Zeichen: Element vonI | tiMathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
ri(1-ni)
Leere Abbildung mit der der Bruchstrich erzeugt wird
ni(1-ri)
·
Mathematisches Zeichen: Produkt
{ iMathematisches Zeichen: Element vonI | tiMathematisches Zeichen: Element vonq}
1-ri
Leere Abbildung mit der der Bruchstrich erzeugt wird
1-ni
Berechnet man die Werte für mehrere Dokumente d , so ist lediglich der mittlere Faktor dieses Produkts noch von den verwendeten Dokumenten abhängig, also für die Bildung einer Rangfolge relevant. Zur einfacheren Berechnung kann man auf diesen Faktor noch einen Logarithmus anwenden, der als streng monotone Funktion die Rangfolge nicht verändert. So erhält man als Kenngröße eines Dokuments d den Retrieval-Status-Wert (retrieval status value):
Mathematisches Zeichen: Summe
{iMathematisches Zeichen: Element vonI | ti Mathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
log
ri(1-ni)
Leere Abbildung mit der der Bruchstrich erzeugt wird
ni(1-ri)
=
Mathematisches Zeichen: Summe
{iMathematisches Zeichen: Element vonI | t iMathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
(log
ri
Leere Abbildung mit der der Bruchstrich erzeugt wird
ni
+log
(1-ni)
Leere Abbildung mit der der Bruchstrich erzeugt wird
(1-ri)
)
Um das Verfahren anzuwenden, müssen Werte für ri und ni geschätzt werden. ri ist die Wahrscheinlichkeit, dass der Term ti in einem für die Anfrage q relevanten Dokument vorkommt, und ni ist die Wahrscheinlichkeit, dass der Term ti in einem für die Anfrage q nicht relevanten Dokument vorkommt.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 73: Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts zu einer Anfrage q = (t1,...,t6)

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 74: Neue Dokumente und ihr Retrieval-Status-Wert

Um die Werte zu schätzen, kann eine Menge von Dokumenten verwendet werden, für die bekannt ist, ob sie für eine Anfrage relevant sind oder nicht. Diese Information kann z.B. durch Relevance Feedback ermittelt werden, also durch die Einschätzung der Relevanz der gefundenen Dokumente durch die Nutzenden. Als Schätzung für ri kann man die Anzahl reli der relevanten Dokumente, die den Term ti enthalten, durch die Gesamtzahl rel der relevanten Dokumente teilen:
ri~=
rel i
Leere Abbildung mit der der Bruchstrich erzeugt wird
rel
Als Schätzung für ni kann man die Anzahl nreli der Dokumente, die nicht als relevant eingeschätzt wurden und den Term ti enthalten, durch die Gesamtzahl nrel der nichtrelevanten Dokumente teilen:
ni~=
nrel i
Leere Abbildung mit der der Bruchstrich erzeugt wird
nrel
Bei dieser Schätzung ergeben sich besonders bei kleinen Dokumentenmengen Probleme, wenn eine der relativen Häufigkeiten 1 oder 0 ist. In diesen Fällen ist entweder der Bruch oder der Logarithmus nicht definiert. Ist das nicht der Fall, ergibt sich für den Retrieval-Status der Schätzwert:
Mathematisches Zeichen: Summe
{iMathematisches Zeichen: Element vonI | tiMathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
log
reli
Leere Abbildung mit der der Bruchstrich erzeugt wird
rel
(1-
nreli
Leere Abbildung mit der der Bruchstrich erzeugt wird
nrel
)
Leere Abbildung mit der der Bruchstrich erzeugt wird
nreli
Leere Abbildung mit der der Bruchstrich erzeugt wird
nrel
(1-
reli
Leere Abbildung mit der der Bruchstrich erzeugt wird
rel
)
=
Mathematisches Zeichen: Summe
{iMathematisches Zeichen: Element vonI | ti Mathematisches Zeichen: Element vonqMathematisches Zeichen: Durchschnittd}
log
reli(nrel-nreli)
Leere Abbildung mit der der Bruchstrich erzeugt wird
nreli(rel-reli)
=
Mathematisches Zeichen: Summe
{i Mathematisches Zeichen: Element von I  |  ti Mathematisches Zeichen: Element von q Mathematisches Zeichen: Durchschnitt d}
( log
reli
Leere Abbildung mit der der Bruchstrich erzeugt wird
(rel-reli)
- log
nreli
Leere Abbildung mit der der Bruchstrich erzeugt wird
(nrel-nreli)
)
Das heißt, ein Term ti trägt positiv zu der Summe bei, wenn seine Quote, berechnet mit der relativen Häufigkeit, in relevanten Dokumenten größer ist als in nicht relevanten Dokumenten. Weiter folgt, dass ein neues Dokument, das viele Terme enthält, die überproportional häufig in relevanten Dokumenten aufgetreten sind, einen hohen Statuswert erhält.

Bei diesem Verfahren muss zu jeder Anfrage zunächst eine Menge von Dokumenten auf ihre Relevanz bezüglich der Anfrage beurteilt werden, damit anschließend zusätzliche Dokumente bewertet werden können. Das ist immer noch ein aufwändiges Verfahren.

Eine Möglichkeit, dieses Verfahren zu verallgemeinern, besteht darin, über verschiedene Anfragen zu mitteln, d.h. solche Terme hoch zu gewichten, die in vielen Dokumenten viel zu der Summe des Status-Werts beitragen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Erweiterte Retrieval-Ansätze -> Der probabilistische Retrieval-Ansatz
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
3.2.2Abschätzung des Retrieval-Status-Werts
Abb. 73 Beispiele mit Relevanzangaben zur Schätzung des Retrieval-Status-Werts zu einer Anfrage q = (t1,...,t6)
Abb. 74 Neue Dokumente und ihr Retrieval-Status-Wert
unabhängig, Relevanz, charakteristische Funktion, Quote, odds, Relevanzurteil, unabhängig, linked dependency assumption, Rangfolge, Retrieval-Status-Wert, retrieval status value, Relevance Feedback charakteristische Funktion, linked dependency assumption, odds, Quote, Rangfolge, Relevance Feedback, Relevanz, Relevanzurteil, retrieval status value, Retrieval-Status-Wert, unabhängig, unabhängig

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 17-11-2003 erzeugt.