Klassifikationen [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren
Stichwörter dieser Seite	Klassifikation, Klassifikation, Attribut, Indexterm, schwache Hierarchien, Polyhierarchien, Doppelstellen, präkoordiniert, World Wide Web
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.3: Klassifikationen

Im Beispiel aus Abbildung 13 wäre es am einfachsten gewesen, wenn die Dokumente in solche aufgeteilt gewesen wären, die Untersuchungen an Tieren beschreiben, und solche, in denen Experimente mit Menschen beschrieben sind. Man hätte die Suche dann auf die zweite Klasse von Dokumenten beschränken können. In Literaturdatenbanken sind für solche häufig vorkommenden Unterscheidungen teilweise spezielle Felder vorgesehen. Sie müssen allerdings bereits bei der Konzeption der Datenformate angelegt und beim Indexieren von Artikeln ausgefüllt werden. Mit rechnergestützten IR-Systemen lassen sich solche Felder flexibel als Attribute zur Beschreibung von Teilmengen der Dokumente verwenden. Sie reichen allerdings nicht aus, um eine größere Sammlung vollständig zugänglich zu machen. Dazu werden Systeme benötigt, mit denen Wissensgebiete detaillierter strukturiert werden können.

Klassifikationen dienen dazu, Themen oder Objekte systematisch zu ordnen. Dabei werden meistens hierarchische Systeme verwendet, deren Ebenen die Themen oder Objekte unterschiedlich detailliert unterscheiden. Strenge hierarchische Systeme lassen sich als Bäume darstellen: In der Wurzel werden alle Themen oder Objekte zusammengefasst; die Blätter sind einzelne Themen, die nicht mehr weiter unterschieden werden. Die Bezeichnungen der detailliertesten Klassen können als Pfad von der Wurzel bis zu einem Blatt dargestellt werden.

Klassifikationen eignen sich insbesondere dazu, physische Objekte systematisch anzuordnen. So kann ein Buch in einer Bibliothek nur an einem Platz stehen, es sollte dort aber thematisch auffindbar sein. Dazu werden die Bücher zunächst in Abteilungen wie Naturwissenschaften oder Geisteswissenschaften eingeteilt. Innerhalb dieser Abteilungen gibt es dann weitere Unterabteilungen wie Physik, Biologie oder Philosophie und Sprachwissenschaften. Diese werden dann weiter in Fachgebiete aufgegliedert, bis schließlich in den einzelnen Regalen Bücher zu sehr spezifischen Themen zusammengefasst sind.

Einer solchen Sortierung der Bücher kann im Allgemeinen nur eine Sichtweise zugrunde liegen. Um andere Sichtweisen, wie die Sortierung nach Autorennamen, Verlagen, Aktualität oder danach, welche Bücher in einer bestimmten Veranstaltung gebraucht werden, zu erreichen, müssen weitere Hilfsmittel - wie ein alphabetischer Katalog oder ein Semesterapparat - verwendet werden.

Um eine Klassifikation zu erzeugen, ist es oft notwendig, die Objekte oder Themen nach eher formalen Kriterien zu unterscheiden. Dazu können sie zunächst durch Attribute beschrieben werden, um die Einteilung in Klassen dann anhand der Werte eines oder mehrerer Attribute vorzunehmen. Dabei muss (wie immer) darauf geachtet werden, dass sich Objekte oder Themen, die in der Klassifikation unterschieden werden sollen, auch in der Beschreibung durch Attribute unterscheiden. Formal lässt sich eine Klassifikation folgendermaßen definieren:

Definition 2: Klassifikation

Durch eine Klassifizierung, d.h. durch die Zugehörigkeit zu einer Klasse, lässt sich ein Attribut definieren, das genau diese Klasseneinteilung leistet. In einem IR-System kann dieses Attribut verwendet werden, um nach Objekten aus der Klasse zu suchen, indem der Bezeichner der Klasse als Indexterm verwendet wird. Dabei werden in der Praxis häufig auch mehrere Klassendeskriptoren zugelassen, wie bei den Klassifikationen im Beispieldokument aus Abbildung 1 .

Abbildung 19: Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System

Neben streng hierarchischen Klassifikationssystemen werden in der Praxis häufig Systeme verwendet, bei denen die Klassen nicht disjunkt sein müssen. Das hat den rein praktischen Grund, dass in einer Hierarchie immer nur eine Sichtweise möglich ist. So muss z.B. sehr früh entschieden werden, ob Autositze in die Klasse der Autoteile oder in die Klasse der Sitzmöbel fallen. Während die erste Einordnung den Aspekt betont, Teil von etwas zu sein, wird bei der zweiten ein eher funktionaler Aspekt in den Vordergrund gerückt.

Eine Systematisierung dieses weniger strengen Ansatzes sind so genannte schwache Hierarchien oder Polyhierarchien, bei denen zugelassen ist, dass eine Klasse zwei Oberklassen hat. Formal heißt das, dass bei der Bildung der feineren Klassifikation nicht mehr verlangt wird, dass die neuen Klassen durch Teilen von Klassen der darüber liegenden Hierarchiestufe erzeugt werden. Solche Systeme lassen sich nur schwer auf der Ebene der Objekte als Mengensysteme definieren. Einfacher ist das auf der Ebene der Begriffe. Hier können z.B. Graphdarstellungen verwendet werden. Ist ein Begriff als Unterbegriff von mehreren allgemeineren Begriffen eingetragen, spricht man auch von Doppelstellen. Systeme, die mit Begriffen und Relationen zwischen diesen Begriffen arbeiten, werden in den Abschnitten 1.3.4 und 1.3.5 über Thesauren und semantische Netze wieder aufgegriffen.

1.3.3.1: Internationale Dezimalklassifikation

Klassifikationen in ihrer reinen Form zeichnen sich dadurch aus, dass sie von vornherein festgelegte Klassen enthalten. Wenn sie zur Einteilung von Dokumenten genutzt werden, müssen die Klassen bereits definiert sein. Ein solches System wird auch präkoordiniert genannt. Es ist naturgemäß wenig flexibel und muss bereits vor der ersten Nutzung vollständig sein und entsprechend viele Klassen enthalten. Dadurch wird es unübersichtlich und erfordert, wie schon oben am Beispiel der Autositze gezeigt, oft auf sehr allgemeiner Ebene nicht rückgängig zu machende Entscheidungen, die nicht immer für alle Nutzenden nachvollziehbar sind.

Mit der Verbreitung des World Wide Web erfreuen sich Klassifikationen wieder einer steigenden Beliebtheit, weil sie sich gut in Hypertext-Systeme abbilden lassen. Dabei treten die beschriebenen Probleme allerdings auch dort auf, wie bereits in Abschnitt 1.1.5 kurz beschrieben wurde. In Abschnitt 4.3.3 wird darauf noch genauer eingegangen.

1.3.3.2: Erweiterte Klassifikationssysteme

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.3	Klassifikationen
Def. 2	Klassifikation
Abb. 19	Schematische Darstellung der Verwendung einer Klassifikation in einem Information-Retrieval-System
1.3.3.1	Internationale Dezimalklassifikation
Abb. 20	Die 10 Hauptabteilungen der internationalen Dezimalklassifikation
Abb. 21	Die 10 Abteilungen der Hauptabteilung 5 in der internationalen Dezimalklassifikation
Abb. 22	Ein Pfad durch die internationale Dezimalklassifikation
Abb. 23	Ein Pfad durch die internationale Dezimalklassifikation
1.3.3.2	Erweiterte Klassifikationssysteme
Abb. 24	Die Grundkategorien der Toman Facettenklassifikation
Abb. 25	Die Facettenwerte der ersten Grundkategorie der Toman-Facettenklassifikation

Klassifikation, Klassifikation, Attribut, Klassen, Klassierung, streng hierarchisches Klassifikationssystem, Indexterm, schwache Hierarchien, Polyhierarchien, Doppelstellen, Internationale Dezimalklassifikation, Dewey Decimal Classification, DDC, präkoordiniert, World Wide Web, Anhängezahlen, Postkoordination, Facettenklassifikation, Faktendatenbank

Anhängezahlen, Attribut, DDC, Dewey Decimal Classification, Doppelstellen, Facettenklassifikation, Faktendatenbank, Indexterm, Internationale Dezimalklassifikation, Klassen, Klassierung, Klassifikation, Klassifikation, Polyhierarchien, Postkoordination, präkoordiniert, schwache Hierarchien, streng hierarchisches Klassifikationssystem, World Wide Web

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.