R. Ferber: Informationssysteme 1.5.5.2

4.5.2: Die TREC 4 Ergebnisse von SMART

Bei der Bewertung des SMART Systems mit Volltextdokumenten insbesondere aus TREC 3 hatte sich gezeigt, dass die Verwendung des Cosinus als Ähnlichkeitsmaß kurze Dokumente bevorzugt. Um diese allgemeine Beobachtung zu überprüfen wurden die TREC 4 (Trainings-) Dokumente nach ihrer Länge sortiert und diese Rangfolge in 568 Mengen zu je 1000 Dokumenten unterteilt. (Entsprechende Angaben für TREC 3 finden sich in Singhal, Buckley & Mitra 1996 [->]) Für jede Menge wurde der Median der Länge (in Byte) der darin enthaltenen Dokumente berechnet. Für jeden TREC 4 Topic wurden die 1000 ähnlichsten Dokumente mit dem Cosinusmaß ermittelt und festgestellt, in welcher der Mengen sie auftraten. Weiter wurde festgestellt, in welcher der Mengen die relevanten Dokumente auftraten. Damit wurden für jede der durch die unterschiedlichen Längen charakterisierten Mengen zwei relative Häufigkeiten berechnet: die relative Häufigkeit der gefundenen Dokumente und die relative Häufigkeit der relevanten Dokumente. Diese beiden Werte können für die verschiedenen Längenmediane verglichen werden.

Bei den mit dem Cosinusmaß gefundenen Dokumenten zeigt sich eine leicht erhöhte relative Häufigkeit für mittellange und sehr kurze Dokumente: Sie werden mit dem Cosinusmaß eher als zu einer Query relevant eingeschätzt. Bei den (nach der Beurteilung der Experten) relevanten Dokumenten zeigt sich ein klarer Anstieg ihrer relativen Häufigkeit mit dem Median der Länge der Dokumente: Die Wahrscheinlichkeit als zu einer Query relevant beurteilt zu werden nimmt mit der Länge eines Dokuments zu. (Diagramme mit diesen Zusammenhängen sind für TREC 4 in Buckley, Singhal, Mitra & Salton [->] und für die TREC 3 Daten in Singhal, Buckley & Mitra 1996 [->] zu finden.) Bei den TREC 3 Daten findet sich zwar auch für die relative Häufigkeit mit dem Cosinusmaß gefunden zu werden ein leichter Anstieg mit dem Median der Länge, aber der mittlere Anstieg mit wachsender Länge ist bei der relativen Häufigkeit der Relevanz größer.

Es ist naheliegend für ein gutes Ähnlichkeitsmaß zu verlangen, dass die beiden relativen Häufigkeiten für Dokumente gleicher Länge möglichst gleich sein sollten. Damit wird eine mögliche Fehlerquelle ausgeschlossen. Deshalb wurde für SMART bei TREC 4 eine neue Normierung der Dokumentvektoren entwickelt. Sie geht zunächst (wie in Singhal, Buckley & Mitra 1996 [->] beschrieben) davon aus, dass die beiden Kurven der relativen Häufigkeiten für die verschiedenen Längenmediane möglichst zur Deckung gebracht werden sollen, bzw. deren Abstand (in einem geeigneten Maß) minimiert werden soll. Dazu wird eine Transformation in Form einer Geradengleichung gesucht, die aus der alten Normierung (also der euklidischen Länge des Vektors) eine neue Normierung berechnet, die den (mittleren) Abstand der beiden Kurven verkleinert.

Diese Geradengleichung kann durch einen Punkt (p,p) (an dem sich die Normierung nicht ändern soll) und eine Steigung m , um den die Steigung der Normierung "gekippt" werden soll, angegeben werden. Der neue Normierungswert y hängt dann mit dem alten x folgendermaßen zusammen:

y-p=m(x-p)
y=m·x+p(1-m)

Diese Formel wird nun benutzt um die Normierung - also den Nenner der Gewichtsformel ( 4.5.2 ) - zu verändern. Durch Einsetzen erhält man

wobei w'(i,k) für den Zähler und x für den Nenner der Gewichtsformel ( _4.5.2_ ) steht. Da der Faktor p(1-m) für feste Parameter p und m für alle Vektoren konstant ist, und damit die Rangfolge der Ähnlichkeiten nicht verändert, kann man c:=^(m)/_(p(1-m)) als einzigen Parameter der neuen Gewichtsformel betrachten und mit Hilfe einer Beispielsammlung optimieren.

In TREC 4 wurde allerdings eine etwas andere Gewichtungsformel verwendet. Sie lautet (soweit sich das aus dem Text entschlüsseln lässt):

wobei h die mittlere Termhäufigkeit (also vermutlich h=⁽¹⁾/_(D·n)_{_dD}_{_k=1}^ⁿh(d,k) ) und t(i) die Anzahl verschiedener Terme im Dokument d_i angibt. Die Parameter m und p wurden auf m=0.2 und die mittlere Anzahl verschiedener Terme p=⁽¹⁾/_(D)_{_dD}t(d) gesetzt.

Die Parameter aus TREC 3 wurden verändert, vor allem um den kürzeren Topics Rechnung zu tragen: Statt der besten 30 wurden nur noch die besten 20 Dokumente zum Feedback verwendet. Bei der Expansion wurden lediglich 50 Terme und 10 Termpaare verwendet. Ansonsten wurde das Vorgehen aus TREC 3 beibehalten. Die Ergebnisse sind in Abbildung 56 dargestellt.

Abb. 56: Vergleich der Ergebnisse nach der neuen Normierung

In einem zweiten Ansatz wurde eine weitgehend neue Ähnlichkeitsfunktion das sogenannte Individual Term Locality (ITL) Maß entwickelt mit der die besten Dokumente nach einer ersten Ähnlichkeitssuche nochmals mit der Anfrage verglichen und in eine Rangfolge gebracht werden. Sie wird leider nur sehr allgemein beschrieben. Das Prinzip des ITL Maßes scheint es zu sein, zu jeder Position in dem zu untersuchenden Dokument und zu jedem Queryterm, der in dem Dokument auftaucht, den Term, den Ort an dem er auftaucht und die Umgebung als eine Folge von Tupeln zu betrachten. Diesen Tupeln werden dann in Abhängigkeit von ihren Eigenschaften Werte zugeordnet, die für jeden Punkt im Dokument aufaddiert werden. Die verwendeten Eigenschaften sind:

der Abstand des Tupels von dem Punkt an dem untersucht wird
die Häufigkeit, mit der der Term für den aktuellen Punkt bereits gefunden wurde
das Gewicht des Terms in der Anfrage
die Sicherheit mit der der Term gefunden wurde. Das kann z. B. bei Texten, die mit einer Texterkennungssoftware erfasst wurden wichtig sein, oder auch bei Wörtern mit mehreren möglichen Stämmen.
die Gesamtlänge des Dokuments
die Beziehungen eines Terms zu den Termen, die ihn umgeben. Durch solche Beziehungen kann z. B. berücksichtigt werden,
- ob die umgebenden Terme auch in der Anfrage dicht beieinander auftauchen
- ob die umgebenden Terme auch in einer Menge relevanter Dokumente dicht beieinander auftauchen.
Als weitere, bisher nicht genutzte mögliche Beziehungen nennen die Autoren:
- ob die umgebenden Terme im selben Satzteil stehen,
- ob eine semantische Beziehung zwischen den umgebenden Termen besteht.

Der maximale Wert, den ein Punkt bei der Summation erhält, wird als Ähnlichkeitswert des Dokuments zur Query verwendet. Der Vorteil dieses Maßes scheint zu sein, dass eine Dokument jeweils von vielen Punkten aus betrachtet wird, und damit verschieden "relative Perspektiven" auf das Dokument einbezogen werden können.

Zur Berechnung der zweiten Serie von Ergebnislisten mit dem ITL Maß wurde in TREC 4 auf den Ergebnissen der ersten Serie aufgesetzt. Als Ergebnis der ersten Serie standen je Anfrage 20 am besten bewertete Dokumente, eine durch Feedback erweiterte Anfragen und eine Rangfolge von 1750 Dokumenten zu Verfügung. Für diese 1750 Dokumente wurden mit dem ITL Maß die Ähnlichkeiten zu den erweiterten Anfragen berechnet. Dabei wurden die 20 am besten bewerteten Dokumente mit herangezogen. In jedem Dokument wurden an allen Stellen, an denen Terme aus der Anfrage gefunden wurden die Punktähnlichkeiten berechnet. Als Ähnlichkeit des Dokuments zur Anfrage wurde die Summe aus dem größten dieser Ähnlichkeitswerte und der Ähnlichkeit aus der ersten Serie verwendet.

Abb. 57: Die SMART Verfahren aus TREC 4

Abb. 58: Die SMART Verfahren in TREC 4

Die Ergebnisse der beiden SMART Läufe sind in den Abbildungen _57_ und _58_ dargestellt. Die erste Serie liefert sehr gute Ergebnisse für die kurzen TREC 4 Anfragen. Sie ist die beste vollautomatische Serie von allen teilnehmenden Systemen. Die Ergebnisse der ITL Serie sind um etwa 4% schlechter. Das heisst, dass die von den Autoren vermuteten Vorteile der ITL Methode zumindest in dieser Untersuchung nicht eingetreten sind. Im Gegenteil durch die nachgeschaltete ITL Bewertung werden die guten Ergebnisse im Mittel wieder verschlechtert. Diese Verschlechterung fällt größer aus als die 4% aussagen, da die verwendeten Ähnlichkeitswerte ja die Summe der ersten Ähnlichkeit und der ITL Ähnlichkeit sind.