R. Ferber: Informationssysteme 1.4.5.4

3.5.4: Mittelwertbildungen

Um aussagekräftige Ergebnisse zu bekommen, müssen die Precision und Recallwerte über mehrere (repräsentative) Anfragen q₁,...,q_k gemittelt werden. Dazu gibt es zwei verschiedene Möglichkeiten: Die sog. Makrobewertung oder der nutzungsorientierte ( user-oriented) Ansatz bildet das arithmetische Mittel über die Precision und Recall Werte:

Dabei wird die Größe der beteiligten Antwortmengen nicht berücksichtigt. Ob ein Wert aufgrund von wenigen oder vielen relevanten Dokumenten zustande gekommen ist, spielt keine Rolle. Die Berechnungsmethode wird nutzungsorientiert genannt, weil jede Anfrage gleich in die Bewertung eingeht.

Die Mikrobewertung oder der systemorientierte ( system oriented) Ansatz setzt die Summen der Dokumentanzahlen in die Formeln für Recall und Precision ein:

Hier wird der Mittelwert gemäß der Anzahl der beteiligten Dokumente berechnet. Anfragen mit wenigen relevanten Dokumenten spielen eine kleinere Rolle als solche mit vielen relevanten Dokumenten. Der Ansatz wird systemorientiert genannt, weil die relevanten Dokumente die Basis der Bewertung bilden.

Salton und McGill (1983) geben ein nettes Beispiel für die beiden Methoden: Wenn 10 Veranstaltungen stattfinden, davon 5 mit je 99 Studierenden und 5 mit je nur einer Person, dann ist die Makrobewertungs - oder die "class level" - Durchschnittsgröße eines Seminars

^(5·1+5·99)/₍₁₀₎=50

Studierende, die Mikrobewertungs- oder "student-level" Durchschnittsgröße ist aber

^{(5·99·99+5·1·1)}/_(5·99+5·1)=98,02

Die einzelnen Studierenden sitzen im Durchschnitt in Veranstaltungen mit 98,02 Teilnehmenden.

Auch mit Precision-Recall-Diagrammen können verschiedene Systeme oder Systemläufe nicht immer eindeutig verglichen werden. Nur wenn die Precision eines Systems für alle Recallwerte besser ist als die eines anderen, kann man sagen, dass dieses System besser ist als das andere. Ist für einen Recallwert die Precision des einen Systems höher und für einen anderen die des anderen, ist eine generelle Aussage, welches System besser ist, erstmal nicht möglich. Um Systeme in jedem Fall vergleichen zu können bzw. in eine Rangfolge bringen zu können, verwendet man häufig die mittlere Precision. Sie wird als Mittelwert der Precisionwerte an einer fest vorgegebenen Menge von Recallwerten, z. B. den Recallwerten {0.1, 0.2, 0.3, ... 0.9} oder {0.75, 0.5, 0.25} , berechnet. Dadurch erhält man eine reelle Zahl, nach der verschiedene Systeme in eine Rangfolge gebracht werden können. Da sich die tatsächlichen Recallwerte in einem Precision-Recall-Diagramm aus der Anzahl der relevanten Dokumente ergeben, müssen die Precisionwerte für die gewählten Recallwerte gegebenenfalls interpoliert werden; oder es wird der Precisionwert verwendet, bei dem der gesuchte Recall erstmal überschritten wird.

Ein anderes eindimensionales Maß ist der sogenannte break-even point, das ist der Wert, an dem Precision und Recall gleich sind. Auch dieser Wert muss gegebenenfalls durch Interpolation ermittelt werden. In ungünstigen Fällen ist er nicht eindeutig bestimmt. Weitere Vergleichsmaße sind in TREC-7 [->] beschrieben.