Kategorisieren [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden
Stichwörter dieser Seite	Machine Learning, Kategorisierung, Kategorie, binäre Kategorisierung, TREC, Routing
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

2.3: Kategorisieren

Eine im Machine Learning häufig untersuchte Aufgabenstellung ist die Kategorisierung, bei der eine Menge von Beispielen oder Tupeln in endlich viele disjunkte Klassen (die hier auch Kategorien genannt werden) eingeteilt wird. Ziel ist es, Regeln zu finden, die für einzelne Tupel aufgrund ihrer Eigenschaften vorhersagen, in welche Klasse bzw. Kategorie sie gehören. Häufig sollen die Beispiele nur in zwei Klassen (oder Kategorien) eingeteilt werden (binäre Kategorisierung), d.h., es geht um eine Entscheidung zwischen zwei Alternativen wie beim Beispiel über die Vergabe von Kreditkarten aus der Einleitung (siehe Abschnitt 1.1.9 ).

Ein anderes Beispiel einer Kategorisierung ist die Aufteilung von Dokumenten auf verschiedene Themengebiete, wie sie z.B. in Zeitungsredaktionen für Agenturmeldungen vorgenommen werden muss. In den TREC-Experimenten wurde diese Aufgabe als Routing Task eingeführt (siehe Abschnitt 1.3.7.6 ). Ein Beispiel, bei dem diese Aufgabe mit Machine-Learning-Verfahren angegangen wurde, wird in Abschnitt 3.5.2.1 beschrieben. Im Unterschied zum Information Retrieval sind die Inhaltskategorien, nach denen die Dokumente verteilt werden sollen, häufig eher wenig detailliert, weil davon ausgegangen wird, dass die Menge der ankommenden Artikel im Vergleich zu einer Dokumentensammlung eher überschaubar ist.

2.3.1: Attribute und Kategorien

2.3.2: Trainings- und Testmenge

2.3.3: Lernparadigmen

2.3.4: Der ID3-Algorithmus

2.3.5: Rahmenbedingungen für Lernalgorithmen

2.3.6: Einfache Regelsysteme

2.3.7: Der AQ-Algorithmus

2.3.8: Regelsysteme mit zusammengesetzten Attributen

2.3.9: Multivariate Entscheidungsbäume

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

2.3	Kategorisieren
2.3.1	Attribute und Kategorien
Def. 9	Kategorisierung
Def. 10	Nach einem Attribut kategorisieren
Def. 11	Induktive Kategorisierung
2.3.2	Trainings- und Testmenge
Abb. 50	Beispielmenge von Tupeln mit Kategorisierung
2.3.3	Lernparadigmen
2.3.4	Der ID3-Algorithmus
Abb. 51	Entscheidungsbaum nach dem ID3-Algorithmus
Alg. 2	ID3 im Überblick
2.3.4.1	Formale Beschreibung des ID3-Algorithmus
Alg. 3	ID3 im Detail
Abb. 52	Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.
Abb. 53	ID3-Entscheidungsbaum
2.3.4.2	Kategorisieren mit dem ID3-Algorithmus
Alg. 4	ID3-Baum anwenden
2.3.5	Rahmenbedingungen für Lernalgorithmen
2.3.5.1	Konsistenz
Def. 12	Konsistenz
Satz 2	Kategorisierbarkeit konsistenter Beispielmengen
2.3.5.2	Größe von Entscheidungsbäumen
Abb. 54	Maximaler Entscheidungsbaum mit zwei Kategorien
Abb. 55	Entscheidungsbaum mit zwei Kategorien
2.3.5.3	Wertebereiche der Attribute
2.3.5.4	Bewertung von Kategorisierungsergebnissen
Def. 13	Accuracy und Coverage
2.3.5.5	Inkonsistente Trainingsdaten
2.3.5.6	Unvollständige Beispiele
2.3.5.7	Größe und Repräsentativität der Trainingsmenge
2.3.5.8	Inkrementelles Lernen
2.3.5.9	Overfitting
2.3.5.10	Suchstrategien
Abb. 56	Gütefunktion mit lokalen Maxima
2.3.6	Einfache Regelsysteme
Def. 14	Normalformen
Abb. 57	Einige Regeln, die sich aus einem Entscheidungsbaum ableiten lassen.
2.3.6.1	Entscheidungslisten
Abb. 58	Konstruktion einer Entscheidungsliste
2.3.6.2	Ripple-down-Regelmengen
Alg. 5	Formale Regelbildung aus Beispielen
Abb. 59	Konstruktion eines Ripple-down Sets
2.3.6.3	Top-down- und Bottom-up-Methoden
2.3.7	Der AQ-Algorithmus
Def. 15	Selektor, Komplex, Abdeckung
Abb. 60	Verallgemeinerung von Regeln
Def. 16	Stern
Alg. 6	AQ15: Regelgenerierung
Abb. 61	Beispiele nach Kategorien sortiert
Alg. 7	AQ15: Partieller Stern
Abb. 62	Konstruktion einer Abdeckung
2.3.7.1	Generalisierungsoperationen
2.3.8	Regelsysteme mit zusammengesetzten Attributen
Abb. 63	Regeln, die auch Vergleiche von Attributen zulassen
Abb. 64	Beispiele, die sich mit einem zusammengesetzten Attribut gut trennen lassen
2.3.9	Multivariate Entscheidungsbäume
2.3.9.1	Attributauswahl
2.3.9.1.1	Sequenzielle Elimination und Auswahl
2.3.9.1.2	Verteilungsbasiertes Eliminationsverfahren
2.3.9.1.3	Das CART-Verfahren
2.3.9.2	Koeffizientenbestimmung
2.3.9.3	Evaluierung

Machine Learning, Kategorisierung, Kategorie, binäre Kategorisierung, TREC, Routing, Kategorie, Kategorisierung, Klassifikation, Attribut, Attribut, vorherzusagendes Attribut, predicted attributes, vorhersagendes Attribut, predicting attributes, Wertebereich, Trainingsmenge, induktiv erzeugter Kategorisierungsalgorithmus, Trainingsmenge, training set, Trainingsphase, Testmenge, test set, Testphase, unabhängig, supervised learning, überwachtes Lernen, Testmenge, bewertetes Lernen, nichtüberwachtes Lernen, Ähnlichkeitsmaß, Cluster-Verfahren, Kategorisierung, Wertebereich, Trainingsmenge, Konsistenz, konsistente Beispielsammlung, Trainingsmenge, Konsistenz, Wertebereich, Skalenniveau, Nominalskala, Relation, Ordinalskala, Intervallskala, Rationalskala, Nominalskala, Intervallskala, Ordinalskala, Schwellwertfunktion, Nominalskala, Testmenge, Precision, Recall, classification accuracy, Abdeckung, Coverage, Accuracy, Coverage, Kategorisierung, Genauigkeit, Abdeckung, Mikrobewertung, Makrobewertung, Skalenniveau, inkonsistente Trainingsdaten, Trainingsmenge, statistische Aussage, Konsistenz, Vorbehandlung, preprocessing, unvollständige Beispiele, Wertebereich, undefined, Skalenniveau, Nominalskala, Ordinalskala, Intervallskala, Trainingsmenge, Wertebereich, Testkollektion, Fenstertechnik, Fenster, inkrementelles Lernen, Trainingsmenge, Overfitting, Hill-Climbing, vollständige Suche, Beam-Search, Attribut-Wert-Paar, elementare Bedingung, atomare Bedingung, Bedingung, zusammengesetzte Bedingung, Konjunktion, Disjunktion, Komplement, Regel, konjunktive Normalform, disjunktive Normalform, Entscheidungsliste, Regel, decision list, Kategorie, Ripple-down-Regelmenge, Trainingsmenge, Regel, Top-down, Bottom-up, AQ-Algorithmus, AQ15, Regel, Kategorie, Selektor, Komplex, Abdeckung, cover, Spezialisierung, Stern, Einschränkung, constraint, beschränkter Stern, partieller Stern, Wertebereich, Spezialisierung, dropping condition rule, adding condition rule, extending reference rule, closing interval rule, turning conjunction into disjunction rule, Regel, Skalenniveau, Ordinalskala, Split, splitting value, Skalenniveau, Kategorie, multivariater Entscheidungsbaum, Linearkombination, Skalenniveau, Intervallskala, lineare Schwellwertfunktion, linear threshold unit, LTU, Skalarprodukt, lineare Maschine, linear machine, LM, Elimination, sequenzielle Rückwärtselimination, Sequential Backward Elimination, SBE, Auswahl, sequenzielle Vorwärtsauswahl, Sequential Foreward Selection, SFS, Top-down, Bottom-up, Heuristisches Sequenzielles Suchverfahren, HSS, verteilungsbasierte Rückwärtselimination, Dispersion-Guided Sequential Backward Elimination, DSBE, impurity, Methode der kleinsten Fehlerquadrate, Recursive Least Squares, RLS, Skalarprodukt, Pocket-Algorithmus, Trainingsmenge, Testmenge

Abdeckung, Abdeckung, Abdeckung, Accuracy, adding condition rule, Ähnlichkeitsmaß, AQ-Algorithmus, AQ15, atomare Bedingung, Attribut, Attribut, Attribut-Wert-Paar, Auswahl, Beam-Search, Bedingung, beschränkter Stern, bewertetes Lernen, binäre Kategorisierung, Bottom-up, Bottom-up, classification accuracy, closing interval rule, Cluster-Verfahren, constraint, cover, Coverage, Coverage, decision list, Disjunktion, disjunktive Normalform, Dispersion-Guided Sequential Backward Elimination, dropping condition rule, DSBE, Einschränkung, elementare Bedingung, Elimination, Entscheidungsliste, extending reference rule, Fenster, Fenstertechnik, Genauigkeit, Heuristisches Sequenzielles Suchverfahren, Hill-Climbing, HSS, impurity, induktiv erzeugter Kategorisierungsalgorithmus, inkonsistente Trainingsdaten, inkrementelles Lernen, Intervallskala, Intervallskala, Intervallskala, Intervallskala, Kategorie, Kategorie, Kategorie, Kategorie, Kategorie, Kategorisierung, Kategorisierung, Kategorisierung, Kategorisierung, Klassifikation, Komplement, Komplex, Konjunktion, konjunktive Normalform, konsistente Beispielsammlung, Konsistenz, Konsistenz, Konsistenz, linear machine, linear threshold unit, lineare Schwellwertfunktion, lineare Maschine, Linearkombination, LM, LTU, Machine Learning, Makrobewertung, Methode der kleinsten Fehlerquadrate, Mikrobewertung, multivariater Entscheidungsbaum, nichtüberwachtes Lernen, Nominalskala, Nominalskala, Nominalskala, Nominalskala, Ordinalskala, Ordinalskala, Ordinalskala, Ordinalskala, Overfitting, partieller Stern, Pocket-Algorithmus, Precision, predicted attributes, predicting attributes, preprocessing, Rationalskala, Recall, Recursive Least Squares, Regel, Regel, Regel, Regel, Regel, Relation, Ripple-down-Regelmenge, RLS, Routing, SBE, Schwellwertfunktion, Selektor, Sequential Foreward Selection, Sequential Backward Elimination, sequenzielle Rückwärtselimination, sequenzielle Vorwärtsauswahl, SFS, Skalarprodukt, Skalarprodukt, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Skalenniveau, Spezialisierung, Spezialisierung, Split, splitting value, statistische Aussage, Stern, supervised learning, test set, Testkollektion, Testmenge, Testmenge, Testmenge, Testmenge, Testphase, Top-down, Top-down, training set, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsmenge, Trainingsphase, TREC, turning conjunction into disjunction rule, überwachtes Lernen, unabhängig, undefined, unvollständige Beispiele, verteilungsbasierte Rückwärtselimination, vollständige Suche, Vorbehandlung, vorhersagendes Attribut, vorherzusagendes Attribut, Wertebereich, Wertebereich, Wertebereich, Wertebereich, Wertebereich, Wertebereich, zusammengesetzte Bedingung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.