Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Ein komplexeres Beispiel
Stichwörter dieser Seite Wertebereich, Trainingsmenge, Testmenge, Gewichtungsmethode
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.6.4: Durchführung und Bewertung

Der durch die Autoren durchgeführten Evaluierung liegen Datensätze für vier Monate aus dem Bereich New York City zugrunde. Jeder Datensatz wurde durch 31 Attribute beschrieben, darunter Telefonnummer des Anrufenden, Länge des Gesprächs, Ursprungs- und Zielort sowie long distance carrier. Weitere Attribute werden von den Autoren aus Sicherheitsgründen nicht mitgeteilt. Aus diesen Basisattributen wurden weitere Attribute abgeleitet bzw. durch Generalisierungen der Wertebereiche Wissen hinzugefügt. So wurde das oben erwähnte Attribut TIME-OF-DAY mit den Werten konstruiert und ein binäres Attribut TO-PAYPHONE eingeführt, das unterscheidet, ob es sich bei dem angerufenen Telefon um einen öffentlichen oder einen privaten Anschluss handelt.

Die Beispielmengen wurden - wie oben eingeführt - in einzelne Tage zerlegt. Ziel war es, für einen Tag vorherzusagen, ob er Datensätze von betrügerischen Verbindungen enthält.

Die Daten wurden nach einer Reihe von Plausibilitätsüberlegungen bereinigt. So wurden z.B. solche Datensätze entfernt, die eine Zielrufnummer hatten, die sowohl in als missbräuchlich gekennzeichneten Datensätzen auftrat als auch außerhalb dieser Datensätze. Es wurde nur bei solchen Tagen angenommen, dass ein Missbrauch stattfand, bei denen mindestens Gespräche mit einer Gesamtdauer von fünf Minuten als missbräuchlich gekennzeichnet wurden.

Um die assoziativen Regeln zu generieren und auszuwählen, wurden 879 verschiedene Telefonkennungen mit mehr als einer halben Million Anrufdatensätzen verwendet. Ungefähr 3 600 Kennungen wurden für die Profilierung, zum Trainieren und Testen ausgewählt. Die einzige Bedingung an diese Beispielsammlungen war, dass sie mindestens 30 missbrauchsfreie Tage enthalten mussten, die für die Profilierung benutzt wurden. Aus den übrigen Daten wurden ca. 96 000 Datensätze für jeweils einen Tag zusammengestellt, aus denen per Zufall 10 000 als Trainingsmenge und 5 000 als Testmenge verwendet wurden. Dabei wurden Trainings- und Testmenge nach Kennungen getrennt, sodass kein Datensatz einer Kennung, die im Training verwendet wurde, im Test auftreten konnte. Die beiden Mengen wurden so gewählt, dass jeweils 20% der Tage missbräuchliche Verbindungen enthielten. Im ersten Schritt wurden 3 630 assoziative Regeln gefunden, die für mindestens zwei Kennungen zum entsprechenden Grad gültig waren. Daraus wurden 99 ausgewählt, die die verschiedenen Kennungen gut genug abdeckten. Auf diese Regeln wurden zwei Monitor-Templates angewendet, sodass 198 einzelne Monitore in den Lernschritt einbezogen wurden. Bei der Vorwärtsselektion zur Konstruktion der linearen Schwellwertfunktion wurden schließlich elf Monitore ausgewählt und zu einem Missbrauchsdetektor kombiniert.

Der so erzeugte Missbrauchsdetektor wurde mit einer Reihe anderer Detektoren bzw. Verfahren verglichen. Dazu wurde die Trefferquote, also der Anteil der richtig beurteilten "Tage", berechnet. Zusätzlich berechneten Fawcett und Provost noch eine Kostenfunktion, bei der sie einen falschen Alarm, also die irrtümliche Annahme, ein Telefon sei geklont worden, mit Kosten von 5 $ ansetzten und für jede Minute der unerkannt missbräuchlich geführten Gespräche Unkosten von 40 Cent berechneten.

Alarm on all und Alarm on none sind die einfachsten Strategien, die immer oder nie auf Missbrauch schließen und damit wegen der 20:80-Verteilung eine Trefferrate von 0,2 bzw. 0,8 haben. Die Kosten belaufen sich auf 20 000 $ bzw 18 111 $.

Collision and Velocities war ein Geschwindigkeitsdetektor, der die oben beschriebenen gleichzeitigen Anrufe bzw. Anrufe von weit auseinander liegenden Orten in kurzen Zeitabständen untersucht. Neben einzelnen Fehlern durch falsche Zeitmessung in unterschiedlichen Zellen des Netzes wurden hier vor allem viele Tage mit Missbrauch nicht entdeckt. Die Trefferrate lag für diesen Detektor bei 0,82, die berechneten Kosten bei 17 578 $.

Dem High-Usage-Detektor lag die Annahme zugrunde, dass das Klonen vor allem durch eine starke Zunahme der Gespräche auffallen sollte. Er wurde im Wesentlichen als ein Monitor auf der Basis der Gesamtkosten pro Tag mit dem Monitor-Template, das die Abweichung vom Mittelwert in Standardabweichungen angibt, implementiert. Die Schwelle wurde empirisch ermittelt. Die Trefferquote lag bei 0,88, die Kosten bei 6 938 $.

Im Best Individual Monitor wurde der beste einzelne Monitor verwendet, der nach dem oben beschriebenen Verfahren gefunden wurde. Er basiert auf der Regel: (TIME-OF-DAY=EVENING) Mathematisches Zeichen: es folgt FRAUD. Durch die Profilierung misst dieser Monitor starke Veränderungen im Verhalten. Das heißt, nicht häufiges Telefonieren am Abend wurde als Indikator für Missbrauch gefunden, sondern eine starke Zunahme der Telefonate am Abend (das war bei 119 Telefonkennungen der Fall). Die Trefferquote lag bei 0,89, die Kosten bei 7 940 $.

Der State-of-the-Art-Detektor (SOTA) bestand aus 13 "von Hand" konstruierten Monitoren, die auch einzeln Missbrauch erkennen sollten, wenn sie auf die Daten angewendet werden. Neben Collision-and-Velocity-Monitoren wurden die angerufenen Nummern bzw. die Orte, an denen sie sich befanden (bad cellsites), und die Abweichung in der täglichen Benutzung verwendet. Diese Monitore waren in einer Voruntersuchung als die besten Einzeldetektoren ermittelt worden. Sie wurden mit der gleichen Gewichtungsmethode zu einer linearen Schwellwertfunktion zusammengesetzt wie die automatisch ausgewählten Monitore. Die Trefferquote lag bei 0,90, die Kosten bei 6 557 $.

Im Vergleich zu diesen Systemen erreichte der automatisch erzeugte Detektor eine Trefferquote von 0,92 bei Kosten von 5 403 $ und damit das beste Ergebnis. Auch eine Kombination mit dem State-of-the-Art-Detektor verbesserte dieses Ergebnis im Bezug auf die Trefferquote nicht. Allerdings fielen die berechneten Kosten mit 5 078 $ geringer aus.

Mit der Kostenfunktion ergibt sich eine ähnliche Rangfolge unter den betrachteten Detektoren. Lediglich der Best Individual Monitor liegt bei den Kosten deutlich höher als der High-Usage-Detektor. Die Kombination aus dem State-of-the-Art-Detektor und dem in der Untersuchung konstruierten Detektor ist kostengünstiger als der Einsatz des automatisch konstruierten Detektors allein. Die Ergebnisse sind in Abbildung 72 zusammengefasst.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 72: Vergleich der unterschiedlichen Missbrauchsdetektoren

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Ein komplexeres Beispiel
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.6.4Durchführung und Bewertung
Abb. 72 Vergleich der unterschiedlichen Missbrauchsdetektoren
Wertebereich, Trainingsmenge, Testmenge, Gewichtungsmethode Gewichtungsmethode, Testmenge, Trainingsmenge, Wertebereich

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.