ZURÜCK

4.2.8: Bewertung

Für die Bewertung von KDD-Algorithmen verfährt man - wie in Abschnitt _4.2.2_ bereits angedeutet - im Prinzip ähnlich wie bei der Bewertung von Information Retrieval Verfahren. Man verwendet ein Testset, das möglichst repräsentativ für die Verteilung der Beispiele in dem Bereich sein sollte, der mit dem erzeugten Algorithmus bearbeitet werden soll. Aufgrund der richtig bzw. falsch kategorisierten Beispiele des Testsets kann man wie in Abschnitt _3.5.3_ Precision - und Recallwerte für jede Kategorie berechnen. Allerdings heißt die Precision dabei häufig classification accuracy. Recall wird auch Abdeckung oder Coverage genannt.

Formal läßt sich das so formulieren:

ZUGANG4.2.8.1: Accuracy und Coverage

Man sieht unmittelbar, dass diese Definition eine Verallgemeinerung der Definiton von Precision und Recall aus _3.5.3_ ist: Setzt man als gegebene Kategorisierung K={r-1q({0}),r-1q({1})} und als berechnete Kategorisierung Q={D\Dq,Dq} ein, hat man die dort gegebenen Definitionen von Precision und Recall. Die Definition zeigt auch, dass in einer symmetrischen Sichtweise, wenn nämlich die vorgegebene Kategorisierung und die berechnete einfach als zwei verschiedene Kategorisierungen mit gleich vielen Kategorien betrachtet werden, die Precision durch Austauschen der Rollen der beiden Kategorisierungen aus dem Recall hervorgeht und umgekehrt.

Um eine Kategorisierung zu bewerten, können mittlere Genauigkeits- bzw. Abdeckungswerte berechnet werden. Dabei sind für die Mittelwertbildung wieder die Mikro- oder Makrobewertungen möglich (vergl. _3.5.4_ ).

Im allgemeinen ist es bei Kategorisierungen nicht sinnvoll, Precision-Recall-Diagramme zu benutzen, da die Algorithmen keine Ähnlichkeitswerte zu einer Anfrage und damit keine Rangreihe liefern, sondern ein binäres Ergebnis: Ein Dokument ist entweder in der Kategorie oder nicht. Werden Kategorien durch Attribute auf höherem Skalenniveau (also z. B. Intervallskalenniveau) definiert, kann es sinnvoll sein, auch wieder Ähnlichkeiten zu berechnen und Precision-Recall-Diagramme zu verwenden.


ZURÜCK

© 2000 / HTML-Version 14. 1. 2000: R. Ferber