Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden
Stichwörter dieser Seite Machine Learning, Kategorisierung, Kategorie, binäre Kategorisierung, TREC, Routing
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

2.3: Kategorisieren

Eine im Machine Learning häufig untersuchte Aufgabenstellung ist die Kategorisierung, bei der eine Menge von Beispielen oder Tupeln in endlich viele disjunkte Klassen (die hier auch Kategorien genannt werden) eingeteilt wird. Ziel ist es, Regeln zu finden, die für einzelne Tupel aufgrund ihrer Eigenschaften vorhersagen, in welche Klasse bzw. Kategorie sie gehören. Häufig sollen die Beispiele nur in zwei Klassen (oder Kategorien) eingeteilt werden (binäre Kategorisierung), d.h., es geht um eine Entscheidung zwischen zwei Alternativen wie beim Beispiel über die Vergabe von Kreditkarten aus der Einleitung (siehe Abschnitt 1.1.9 ).

Ein anderes Beispiel einer Kategorisierung ist die Aufteilung von Dokumenten auf verschiedene Themengebiete, wie sie z.B. in Zeitungsredaktionen für Agenturmeldungen vorgenommen werden muss. In den TREC-Experimenten wurde diese Aufgabe als Routing Task eingeführt (siehe Abschnitt 1.3.7.6 ). Ein Beispiel, bei dem diese Aufgabe mit Machine-Learning-Verfahren angegangen wurde, wird in Abschnitt 3.5.2.1 beschrieben. Im Unterschied zum Information Retrieval sind die Inhaltskategorien, nach denen die Dokumente verteilt werden sollen, häufig eher wenig detailliert, weil davon ausgegangen wird, dass die Menge der ankommenden Artikel im Vergleich zu einer Dokumentensammlung eher überschaubar ist.

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.1: Attribute und Kategorien

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.2: Trainings- und Testmenge

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.3: Lernparadigmen

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.4: Der ID3-Algorithmus

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.5: Rahmenbedingungen für Lernalgorithmen

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.6: Einfache Regelsysteme

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.7: Der AQ-Algorithmus

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.8: Regelsysteme mit zusammengesetzten Attributen

Pfeil als Kennzeichnung einer Unterueberschrift 2.3.9: Multivariate Entscheidungsbäume

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
2.3Kategorisieren
2.3.1Attribute und Kategorien
Def. 9 Kategorisierung
Def. 10 Nach einem Attribut kategorisieren
Def. 11 Induktive Kategorisierung
2.3.2Trainings- und Testmenge
Abb. 50 Beispielmenge von Tupeln mit Kategorisierung
2.3.3Lernparadigmen
2.3.4Der ID3-Algorithmus
Abb. 51 Entscheidungsbaum nach dem ID3-Algorithmus
Alg. 2 ID3 im Überblick
2.3.4.1Formale Beschreibung des ID3-Algorithmus
Alg. 3 ID3 im Detail
Abb. 52 Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.
Abb. 53 ID3-Entscheidungsbaum
2.3.4.2Kategorisieren mit dem ID3-Algorithmus
Alg. 4 ID3-Baum anwenden
2.3.5Rahmenbedingungen für Lernalgorithmen
2.3.5.1Konsistenz
Def. 12 Konsistenz
Satz 2 Kategorisierbarkeit konsistenter Beispielmengen
2.3.5.2Größe von Entscheidungsbäumen
Abb. 54 Maximaler Entscheidungsbaum mit zwei Kategorien
Abb. 55 Entscheidungsbaum mit zwei Kategorien
2.3.5.3Wertebereiche der Attribute
2.3.5.4Bewertung von Kategorisierungsergebnissen
Def. 13 Accuracy und Coverage
2.3.5.5Inkonsistente Trainingsdaten
2.3.5.6Unvollständige Beispiele
2.3.5.7Größe und Repräsentativität der Trainingsmenge
2.3.5.8Inkrementelles Lernen
2.3.5.9Overfitting
2.3.5.10Suchstrategien
Abb. 56 Gütefunktion mit lokalen Maxima
2.3.6Einfache Regelsysteme
Def. 14 Normalformen
Abb. 57 Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.
2.3.6.1Entscheidungslisten
Abb. 58 Konstruktion einer Entscheidungsliste
2.3.6.2Ripple-down-Regelmengen
Alg. 5 Formale Regelbildung aus Beispielen
Abb. 59 Konstruktion eines Ripple-down Sets
2.3.6.3Top-down- und Bottom-up-Methoden
2.3.7Der AQ-Algorithmus
Def. 15 Selektor, Komplex, Abdeckung
Abb. 60 Verallgemeinerung von Regeln
Def. 16 Stern
Alg. 6 AQ15: Regelgenerierung
Abb. 61 Beispiele nach Kategorien sortiert
Alg. 7 AQ15: Partieller Stern
Abb. 62 Konstruktion einer Abdeckung
2.3.7.1Generalisierungsoperationen
2.3.8Regelsysteme mit zusammengesetzten Attributen
Abb. 63 Regeln, die auch Vergleiche von Attributen zulassen
Abb. 64 Beispiele, die sich mit einem zusammengesetzten Attribut gut trennen lassen
2.3.9Multivariate Entscheidungsbäume
2.3.9.1Attributauswahl
2.3.9.1.1Sequenzielle Elimination und Auswahl
2.3.9.1.2Verteilungsbasiertes Eliminationsverfahren
2.3.9.1.3Das CART-Verfahren
2.3.9.2Koeffizientenbestimmung
2.3.9.3Evaluierung
Machine Learning, Kategorisierung, Kategorie, binäre Kategorisierung, TREC, Routing, Kategorie, Kategorisierung, Klassifikation, Attribut, Attribut, vorherzusagendes Attribut, predicted attributes, vorhersagendes Attribut, predicting attributes, Wertebereich, Trainingsmenge, induktiv erzeugter Kategorisierungsalgorithmus, Trainingsmenge, training set, Trainingsphase, Testmenge, test set, Testphase, unabhängig, supervised learning, überwachtes Lernen, Testmenge, bewertetes Lernen, nichtüberwachtes Lernen, Ähnlichkeitsmaß, Cluster-Verfahren, Kategorisierung, Wertebereich, Trainingsmenge, Konsistenz, konsistente Beispielsammlung, Trainingsmenge, Konsistenz, Wertebereich, Skalenniveau, Nominalskala, Relation, Ordinalskala, Intervallskala, Rationalskala, Nominalskala, Intervallskala, Ordinalskala, Schwellwertfunktion, Nominalskala, Testmenge, Precision, Recall, classification accuracy, Abdeckung, Coverage, Accuracy, Coverage, Kategorisierung, Genauigkeit, Abdeckung, Mikrobewertung, Makrobewertung, Skalenniveau, inkonsistente Trainingsdaten, Trainingsmenge, statistische Aussage, Konsistenz, Vorbehandlung, preprocessing, unvollständige Beispiele, Wertebereich, undefined, Skalenniveau, Nominalskala, Ordinalskala, Intervallskala, Trainingsmenge, Wertebereich, Testkollektion, Fenstertechnik, Fenster, inkrementelles Lernen, Trainingsmenge, Overfitting, Hill-Climbing, vollständige Suche, Beam-Search, Attribut-Wert-Paar, elementare Bedingung, atomare Bedingung, Bedingung, zusammengesetzte Bedingung, Konjunktion, Disjunktion, Komplement, Regel, konjunktive Normalform, disjunktive Normalform, Entscheidungsliste, Regel, decision list, Kategorie, Ripple-down-Regelmenge, Trainingsmenge, Regel, Top-down, Bottom-up, AQ-Algorithmus, AQ15, Regel, Kategorie, Selektor, Komplex, Abdeckung, cover, Spezialisierung, Stern, Einschränkung, constraint, beschränkter Stern, partieller Stern, Wertebereich, Spezialisierung, dropping condition rule, adding condition rule, extending reference rule, closing interval rule, turning conjunction into disjunction rule, Regel, Skalenniveau, Ordinalskala, Split, splitting value, Skalenniveau, Kategorie, multivariater Entscheidungsbaum, Linearkombination, Skalenniveau, Intervallskala, lineare Schwellwertfunktion, linear threshold unit, LTU, Skalarprodukt, lineare Maschine, linear machine, LM, Elimination, sequenzielle Rückwärtselimination, Sequential Backward Elimination, SBE, Auswahl, sequenzielle Vorwärtsauswahl, Sequential Foreward Selection, SFS, Top-down, Bottom-up, Heuristisches Sequenzielles Suchverfahren, HSS, verteilungsbasierte Rückwärtselimination, Dispersion-Guided Sequential Backward Elimination, DSBE, impurity, Methode der kleinsten Fehlerquadrate, Recursive Least Squares, RLS, Skalarprodukt, Pocket-Algorithmus, Trainingsmenge, Testmenge Abdeckung, Abdeckung, Abdeckung, Accuracy, adding condition rule, Ähnlichkeitsmaß, AQ-Algorithmus, AQ15, atomare Bedingung, Attribut, Attribut, Attribut-Wert-Paar, Auswahl, Beam-Search, Bedingung, beschränkter Stern, bewertetes Lernen, binäre Kategorisierung, Bottom-up, Bottom-up, classification accuracy, closing interval rule, Cluster-Verfahren, constraint, cover, Coverage, Coverage, decision list, Disjunktion, disjunktive Normalform, Dispersion-Guided Sequential Backward Elimination, dropping condition rule, DSBE, Einschränkung, elementare Bedingung, Elimination, Entscheidungsliste, extending reference rule, Fenster, Fenstertechnik, Genauigkeit, Heuristisches Sequenzielles Suchverfahren, Hill-Climbing, HSS, impurity, induktiv erzeugter Kategorisierungsalgorithmus, inkonsistente Trainingsdaten, inkrementelles Lernen, Intervallskala, Intervallskala, Intervallskala, Intervallskala, Kategorie, Kategorie, Kategorie, Kategorie, Kategorie, Kategorisierung, Kategorisierung, Kategorisierung, Kategorisierung, Klassifikation, Komplement, Komplex, Konjunktion, konjunktive Normalform, konsistente Beispielsammlung, Konsistenz, Konsistenz, Konsistenz, linear machine, linear threshold unit, lineare Schwellwertfunktion, lineare Maschine, Linearkombination, LM, LTU, Machine Learning, Makrobewertung, Methode der kleinsten Fehlerquadrate, Mikrobewertung, multivariater Entscheidungsbaum, nichtüberwachtes Lernen, Nominalskala, Nominalskala, Nominalskala, Nominalskala, Ordinalskala, Ordinalskala, Ordinalskala, Ordinalskala, Overfitting, partieller Stern, Pocket-Algorithmus, Precision, predicted attributes, predicting attributes, preprocessing, Rationalskala, Recall, Recursive Least Squares, Regel, Regel, Regel, Regel, Regel, Relation, Ripple-down-Regelmenge, RLS, Routing, SBE, Schwellwertfunktion, Selektor, Sequential Foreward Selection, Sequential Backward Elimination, sequenzielle Rückwärtselimination, sequenzielle Vorwärtsauswahl, SFS, Skalarprodukt, Skalarprodukt, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Spezialisierung, Spezialisierung, Split, splitting value, statistische Aussage, Stern, supervised learning, test set, Testkollektion, Testmenge, Testmenge, Testmenge, Testmenge, Testphase, Top-down, Top-down, training set, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsphase, TREC, turning conjunction into disjunction rule, überwachtes Lernen, unabhängig, undefined, unvollständige Beispiele, verteilungsbasierte Rückwärtselimination, vollständige Suche, Vorbehandlung, vorhersagendes Attribut, vorherzusagendes Attribut, Wertebereich, Wertebereich, Wertebereich, Wertebereich, Wertebereich, Wertebereich, zusammengesetzte Bedingung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.