2.3: Kategorisieren
Eine im Machine Learning häufig untersuchte Aufgabenstellung ist die
Kategorisierung,
bei der eine Menge von Beispielen oder Tupeln in endlich viele
disjunkte Klassen (die hier auch Kategorien genannt
werden) eingeteilt wird. Ziel ist es, Regeln zu
finden, die für einzelne Tupel aufgrund ihrer Eigenschaften vorhersagen, in welche Klasse bzw. Kategorie sie
gehören. Häufig sollen die Beispiele nur in zwei Klassen
(oder Kategorien) eingeteilt werden
(binäre Kategorisierung),
d.h., es geht um eine Entscheidung zwischen zwei Alternativen wie beim Beispiel
über die Vergabe von Kreditkarten aus der Einleitung (siehe Abschnitt 1.1.9
).
Ein anderes Beispiel einer Kategorisierung ist die Aufteilung von Dokumenten
auf verschiedene Themengebiete, wie sie z.B. in Zeitungsredaktionen für
Agenturmeldungen vorgenommen werden muss. In den TREC-Experimenten wurde diese Aufgabe
als Routing Task eingeführt (siehe Abschnitt 1.3.7.6
). Ein Beispiel, bei dem
diese Aufgabe mit Machine-Learning-Verfahren angegangen wurde, wird
in Abschnitt 3.5.2.1
beschrieben. Im Unterschied zum
Information Retrieval sind die Inhaltskategorien, nach denen die Dokumente
verteilt werden sollen, häufig eher wenig detailliert, weil davon ausgegangen wird,
dass die Menge der ankommenden Artikel im Vergleich zu einer Dokumentensammlung eher
überschaubar ist.
|
Dieser Abschnitt und seine Unterabschnitte |
Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
Machine Learning, Kategorisierung, Kategorie, binäre Kategorisierung, TREC, Routing, Kategorie, Kategorisierung, Klassifikation, Attribut, Attribut, vorherzusagendes Attribut, predicted attributes, vorhersagendes Attribut, predicting attributes, Wertebereich, Trainingsmenge, induktiv erzeugter
Kategorisierungsalgorithmus, Trainingsmenge, training set, Trainingsphase, Testmenge, test set, Testphase, unabhängig, supervised learning, überwachtes Lernen, Testmenge, bewertetes
Lernen, nichtüberwachtes
Lernen, Ähnlichkeitsmaß, Cluster-Verfahren, Kategorisierung, Wertebereich, Trainingsmenge, Konsistenz, konsistente
Beispielsammlung, Trainingsmenge, Konsistenz, Wertebereich, Skalenniveau, Nominalskala, Relation, Ordinalskala, Intervallskala, Rationalskala, Nominalskala, Intervallskala, Ordinalskala, Schwellwertfunktion, Nominalskala, Testmenge, Precision, Recall, classification accuracy, Abdeckung, Coverage, Accuracy, Coverage, Kategorisierung, Genauigkeit, Abdeckung, Mikrobewertung, Makrobewertung, Skalenniveau, inkonsistente Trainingsdaten, Trainingsmenge, statistische Aussage, Konsistenz, Vorbehandlung, preprocessing, unvollständige Beispiele, Wertebereich, undefined, Skalenniveau, Nominalskala, Ordinalskala, Intervallskala, Trainingsmenge, Wertebereich, Testkollektion, Fenstertechnik, Fenster, inkrementelles Lernen, Trainingsmenge, Overfitting, Hill-Climbing, vollständige
Suche, Beam-Search, Attribut-Wert-Paar, elementare Bedingung, atomare Bedingung, Bedingung, zusammengesetzte
Bedingung, Konjunktion, Disjunktion, Komplement, Regel, konjunktive
Normalform, disjunktive
Normalform, Entscheidungsliste, Regel, decision
list, Kategorie, Ripple-down-Regelmenge, Trainingsmenge, Regel, Top-down, Bottom-up, AQ-Algorithmus, AQ15, Regel, Kategorie, Selektor, Komplex, Abdeckung, cover, Spezialisierung, Stern, Einschränkung, constraint, beschränkter
Stern, partieller Stern, Wertebereich, Spezialisierung, dropping
condition rule, adding
condition rule, extending
reference rule, closing interval rule, turning conjunction into disjunction
rule, Regel, Skalenniveau, Ordinalskala, Split, splitting value, Skalenniveau, Kategorie, multivariater Entscheidungsbaum, Linearkombination, Skalenniveau, Intervallskala, lineare
Schwellwertfunktion, linear threshold
unit, LTU, Skalarprodukt, lineare Maschine, linear machine, LM, Elimination, sequenzielle
Rückwärtselimination, Sequential Backward
Elimination, SBE, Auswahl, sequenzielle Vorwärtsauswahl, Sequential
Foreward Selection, SFS, Top-down, Bottom-up, Heuristisches Sequenzielles Suchverfahren, HSS, verteilungsbasierte Rückwärtselimination, Dispersion-Guided Sequential Backward Elimination, DSBE, impurity, Methode der kleinsten
Fehlerquadrate, Recursive Least
Squares, RLS, Skalarprodukt, Pocket-Algorithmus, Trainingsmenge, Testmenge |
Abdeckung, Abdeckung, Abdeckung, Accuracy, adding
condition rule, Ähnlichkeitsmaß, AQ-Algorithmus, AQ15, atomare Bedingung, Attribut, Attribut, Attribut-Wert-Paar, Auswahl, Beam-Search, Bedingung, beschränkter
Stern, bewertetes
Lernen, binäre Kategorisierung, Bottom-up, Bottom-up, classification accuracy, closing interval rule, Cluster-Verfahren, constraint, cover, Coverage, Coverage, decision
list, Disjunktion, disjunktive
Normalform, Dispersion-Guided Sequential Backward Elimination, dropping
condition rule, DSBE, Einschränkung, elementare Bedingung, Elimination, Entscheidungsliste, extending
reference rule, Fenster, Fenstertechnik, Genauigkeit, Heuristisches Sequenzielles Suchverfahren, Hill-Climbing, HSS, impurity, induktiv erzeugter
Kategorisierungsalgorithmus, inkonsistente Trainingsdaten, inkrementelles Lernen, Intervallskala, Intervallskala, Intervallskala, Intervallskala, Kategorie, Kategorie, Kategorie, Kategorie, Kategorie, Kategorisierung, Kategorisierung, Kategorisierung, Kategorisierung, Klassifikation, Komplement, Komplex, Konjunktion, konjunktive
Normalform, konsistente
Beispielsammlung, Konsistenz, Konsistenz, Konsistenz, linear machine, linear threshold
unit, lineare
Schwellwertfunktion, lineare Maschine, Linearkombination, LM, LTU, Machine Learning, Makrobewertung, Methode der kleinsten
Fehlerquadrate, Mikrobewertung, multivariater Entscheidungsbaum, nichtüberwachtes
Lernen, Nominalskala, Nominalskala, Nominalskala, Nominalskala, Ordinalskala, Ordinalskala, Ordinalskala, Ordinalskala, Overfitting, partieller Stern, Pocket-Algorithmus, Precision, predicted attributes, predicting attributes, preprocessing, Rationalskala, Recall, Recursive Least
Squares, Regel, Regel, Regel, Regel, Regel, Relation, Ripple-down-Regelmenge, RLS, Routing, SBE, Schwellwertfunktion, Selektor, Sequential
Foreward Selection, Sequential Backward
Elimination, sequenzielle
Rückwärtselimination, sequenzielle Vorwärtsauswahl, SFS, Skalarprodukt, Skalarprodukt, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Spezialisierung, Spezialisierung, Split, splitting value, statistische Aussage, Stern, supervised learning, test set, Testkollektion, Testmenge, Testmenge, Testmenge, Testmenge, Testphase, Top-down, Top-down, training set, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsphase, TREC, turning conjunction into disjunction
rule, überwachtes Lernen, unabhängig, undefined, unvollständige Beispiele, verteilungsbasierte Rückwärtselimination, vollständige
Suche, Vorbehandlung, vorhersagendes Attribut, vorherzusagendes Attribut, Wertebereich, Wertebereich, Wertebereich, Wertebereich, Wertebereich, Wertebereich, zusammengesetzte
Bedingung |
|