Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Lernen
Stichwörter dieser Seite Wissensgewinnung, Knowledge Discovery in Databases, KDD, Information Retrieval, Data Mining, DM, Faktendatenbank, Wertebereich
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.2.2: Automatisches Lernen aus Beispielen

In der Einleitung wurde Wissensgewinnung oder Knowledge Discovery in Databases (KDD) folgendermaßen definiert:

"KDD beschreibt automatisierte Verfahren, mit denen Regelmäßigkeiten in Mengen von Datensätzen gefunden und in eine für Nutzende verständliche Form gebracht werden."
Generell handelt es sich bei der Wissensgewinnung aus Korpora also um eine Form des induktiven Lernens. Die Verwendung der Begriffe ist allerdings auch hier - wie beim Information Retrieval - nicht einheitlich. So werden teilweise die Bezeichnungen "Knowledge Discovery in Databases" und "Data Mining" (DM) synonym verwendet. Es gibt aber auch den Versuch, die beiden Begriffe zu differenzieren. Fayyad, Piatetsky-Shapiro und Smyth (1996) [->] schlagen vor, "Knowledge Discovery in Databases" für einen gesamten Prozess zu verwenden, in dem die Bezeichnung "Data Mining" nur einen einzelnen Extraktionsschritt beschreibt. Weitere Bezeichnungen und Definitionsvorschläge finden sich z.B. auf der FAQ-Seite (Frequently-Asked-Questions-Seite) der "KDnuggets"-Web-Seite (Piatetsky-Shapiro, [->] ).

KDD-Verfahren werden in der Regel auf die Inhalte von Faktendatenbanken angewendet, also auf stark strukturierte Einträge.

Pfeil als Kennzeichnung einer Unterueberschrift 2.2.2.1: Faktendatenbanken

Bei KDD-Anwendungen liegen allerdings häufig nur Daten-Tupel vor, die für andere Anwendungen erfasst wurden, bei denen also kein Einfluss mehr auf die verwendeten Attribute genommen werden kann. Wie in solchen Fällen vorgegangen werden kann, muss von Fall zu Fall entschieden werden.

Häufig wird in der Beschreibung von KDD-Verfahren nicht zwischen Objekten und den Tupeln, die sie repräsentieren, unterschieden, sondern man geht davon aus, dass eine eineindeutige Zuordnung von Objekten zu ihren Tupeln existiert, wie sie in relationalen Datenbanken durch einen Primärschlüssel garantiert wird. Stellt der Primärschlüssel allerdings nur eine Identifikationsnummer oder Ähnliches dar, garantiert diese Annahme nicht, dass die Objekte durch die übrigen Attribute inhaltlich gut genug beschrieben sind, um erfolgreich Lernverfahren darauf anzuwenden.

Die Wertebereiche Ri der Attribute sind in der Regel klein und wohl definiert, also z.B. binär, ganzzahlig, reellwertig, oder sie bestehen aus endlich vielen zulässigen Einträgen. Die Anzahl der Attribute bleibt dabei überschaubar. Das unterscheidet sie von den Attributen in IR-Systemen. Dort sind die Attribute entweder sehr komplex, wenn sie z.B. die Menge der Terme in einem Text beschreiben, oder es gibt sehr viele binäre oder reellwertige Attribute, wenn für jeden Term ein Attribut definiert wird, das sein Auftreten oder sein Gewicht angibt. Diese Unterschiede schränken die Möglichkeiten ein, KDD-Verfahren direkt auf IR-Probleme anzuwenden.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Lernen
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.2.2Automatisches Lernen aus Beispielen
2.2.2.1Faktendatenbanken
Wissensgewinnung, Knowledge Discovery in Databases, KDD, Information Retrieval, Data Mining, DM, Faktendatenbank, Faktendatenbank, Attribut, Wertebereich, Attribut-Wert-Paar, Tupel, Wertebereich Attribut, Attribut-Wert-Paar, Data Mining, DM, Faktendatenbank, Faktendatenbank, Information Retrieval, KDD, Knowledge Discovery in Databases, Tupel, Wertebereich, Wertebereich, Wissensgewinnung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.