| ||||||||||||
1.1.8: Data MiningEin in gewisser Weise umgekehrtes Szenario wird bei der Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Databases oder Data Mining) verwendet. Hier wird in vorhandenen Datensammlungen nach nützlichen Regelmäßigkeiten gesucht. Dabei braucht zunächst nicht bekannt zu sein, welche Eigenschaften oder Attribute der Datensätze wichtig sind und welche nicht. Die Data-Mining-Verfahren sollen gerade das herausfinden. Allgemein lässt sich das so formulieren: Knowledge Discovery in Databases (KDD) beschreibt automatisierte Verfahren, mit denen Regelmäßigkeiten in Mengen von Datensätzen gefunden und in eine für Nutzende verständliche Form gebracht werden. Der erste Teil dieser Definition ist auch eine Beschreibung von Machine Learning (ML), einem Forschungsgebiet, das sich damit befasst, Verfahren zu entwickeln, die mit einer Menge von Beispielen trainiert werden und anschließend in der Lage sind, diese und andere Beispiele (möglichst) richtig zu bearbeiten. Eine klassische Aufgabe besteht darin, Objekte, die durch einen Datensatz beschrieben sind, verschiedenen Klassen zuzuordnen, sie also zu klassifizieren. Einige Autoren definieren Knowledge Discovery in Databases als Machine Learning, bei dem die Trainingsmenge eine Datenbank ist (Holsheimer und Siebes, 1994 [->] ). Dabei bleibt allerdings die zweite Forderung - dass nämlich die gefundenen Regelmäßigkeiten für Menschen verständlich sein müssen - unberücksichtigt. Verständliche Ergebnisse können z.B. die Form haben: "Wenn X und Y, dann Z" oder "in X% der Fälle, in denen Y eintritt, tritt auch Z ein". Das Klassifizieren von Objekten - in diesem Fall Dokumenten - ist auch eine zentrale Aufgabe des Information Retrieval, wenn es z.B. darum geht, Artikel oder Bücher bestimmten Themenklassen zuzuordnen. Wichtige Teilaufgaben aus den Gebieten Machine Learning und Information Retrieval lassen sich formal also mit demselben Modell beschreiben. Wie weit sie auch mit denselben Verfahren bewältigt werden können, wird in diesem Buch untersucht. Knowledge-Discovery-Systeme arbeiten häufig auf Faktendatenbanken, also mit stark strukturierten Datensätzen. Der Typ der Einträge in diesen Datensätzen ist meist wohl definiert, also beispielsweise ein binärer, ganzzahliger oder reeller Wert wie Verkaufsdaten, Umsatzzahlen, Testwerte oder Preise. Als Ergebnisse liefern sie z.B. Verfahren, mit denen neue Datensätze in Kategorien eingeteilt werden können. So kann man z.B. versuchen, die Kundendaten einer Kreditkartengesellschaft zu verwenden, um bessere und einheitlichere Regeln für die Aufnahme neuer Kunden zu ermitteln (Carter und Catlett, 1987 [->] ). | ||||||||||||
| ||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.