R. Ferber: Data Mining & Information Retrieval 1.4.3.1

3.3.1: Klassifikationen

Klassifikationen dienen dazu Themen oder Objekte systematisch zu ordnen. Dabei werden meistens hierarchische Systeme verwendet, deren Ebenen die Themen oder Objekte unterschiedlich detailiert unterscheiden. Strenge hierarchische Systeme können als Bäume dargestellt werden: in der Wurzel werden alle Themen oder Objekte zusammengefasst, die Blätter sind einzelne Themen, die nicht mehr weiter unterschieden werden. Die Bezeichnungen der detailliertesten Klassen kann als Pfad von der Wurzel bis zu einem Blatt dargestellt werden.

Klassifikationen sind insbesondere dann nützlich, wenn physische Objekte systematisch angeordnet werden sollen. So kann ein Buch in einer Bibliothek nur an einem Platz stehen, es sollte dort aber thematisch auffindbar sein. Dazu werden die Bücher zunächst in Abteilungen wie Naturwissenschaften oder Geisteswissenschaften eingeteilt, in denen es dann weitere Unterabteilungen wie Physik, Biologie oder Philosophie und Sprachwissenschaften gibt, die ihrerseits wieder in die einzelnen Fachgebiete aufgegliedert werden, bis schließlich in den einzelnen Regalen Bücher zu sehr spezifische Themen zusammengefasst sind. Einer solchen Sortierung der Bücher kann im Allgemeinen nur eine Sichtweise zugrunde liegen. Um andere Sichtweise, wie die Sortierung nach Autorennamen, nach Verlagen, nach Aktualität oder danach, welche Bücher in einer bestimmten Veranstaltung gebraucht werden zu erreichen, müssen weitere Hilfsmittel - wie ein alphabetischer Katalog oder ein "Semesterapparat" - verwendet werden.

Um eine Klassifikation zu erzeugen, ist es oft notwendig, die Objekte oder Themen nach eher formalen Kriterien zu unterscheiden. Dazu können sie zunächst durch Attribute beschrieben werden und die Einteilung in Klassen kann dann anhand der Werte eines Attributs oder mehrerer Attribute vorgenommen werden. Dabei muss (wie immer) darauf geachtet werden, dass sich Objekte oder Themen, die in der Klassifikation unterschieden werden sollen, auch in der Beschreibung durch Attribute unterscheiden.

Formal lässt sich eine Klassifikation folgendermaßen definieren:

3.3.1.1: Klassifikation

Formal lässt sich durch eine Klassifizierung, d. h. durch die Zugehörigkeit zu einer Klasse, ein Attribut definieren, das genau diese Klasseneinteilung leistet. In einem IR System kann dieses Attribut verwendet werden, um nach Objekten aus der Klasse zu suchen, indem der Bezeichner der Klasse als Indexterm verwendet wird. Dabei werden in der Praxis häufig auch mehrere Klassendeskriptoren zugelassen wie z. B. bei den Klassifikationen im Beispieldokument aus Abbildung _1_ .

Abb. 19: Schematische Darstellung der Verwendung einer Klassifikation in einem Information Retrieval System

Neben strengen hierarchischen Klassifikationssystemen werden in der Praxis häufig auch Systeme zugelassen, die nicht darauf bestehen, dass die Klassen disjunkt sind. Das hat den rein praktischen Grund, dass in einer Hierarchie immer nur eine Sichtweise mögliche ist. So muss z. B. sehr früh entschieden werden, ob Autositze in die Klasse der Autoteile oder in die Klasse der Sitzmöbel fallen. Während die erste Klassierung den Aspekt, Teil von etwas zu sein, betont, wird bei der zweiten ein eher funktionaler Aspekt in den Vordergrund gerückt.

Eine Systematisierung dieses Ansatzes sind sogenannte schwache Hierarchien oder Polyhierarchien, bei denen zugelassen ist, dass eine Klasse zwei Oberklassen hat. Formal heisst das, dass bei der Bildung der feineren Klassifikation nicht mehr verlangt wird, dass die neuen Klassen durch Teilen von Klassen erzeugt werden. Solche Systeme lassen sich nur schwer auf der Ebene der Objekte als Mengensysteme definieren. Einfacher ist das auf der Ebene der Begriffe. Hier können z. B. Graphdarstellungen verwendet werden. Ist ein Begriff als Unterbegriff von mehreren allgemeineren Begriffen eingetragen, spricht man auch von Doppelstellen. Leider ist es dafür aber wieder schwierig zu definieren, was ein Begriff ist. Dieses Thema wird im nächsten Abschnitt über Thesauren ( 3.3.2 ) wieder aufgegriffen.

3.3.1.2: Internationale Dezimalklassifikation

Klassifikationen in ihrer reinen Form zeichnen sich dadurch aus, dass sie von vorneherein festgelegte Klassen enthalten. Wenn sie zur Einteilung von Dokumenten genutzt werden, müssen die Klassen bereits definiert sein. Eine solches System wird auch präkoordiniert genannt. Es ist naturgemäß wenig flexibel und muss - um vollständig zu sein - von vorneherein sehr viele Klassen enthalten. Dadurch wird es unübersichtlich und erfordert, wie schon oben am Beispiel der Autositze gezeigt, oft schon auf sehr allgemeiner Ebene nicht rückgängig zu machende Entscheidungen, die nicht immer für alle Nutzenden nachvollziehbar sind.

Deshalb wurden zusätzliche Elemente entwickelt, mit denen Klassifikationen flexibler gemacht werden können. Das sind neben Doppelstellen sog. Anhängezahlen. Damit werden Modifikationen beschrieben, die sich häufig wiederholen und verhältnismäßig unabhängig von den Begriffen sind, auf die sie angewendet werden. Das können zum Beispiel Moderatoren sein, wie die Konstruktion "Wartung von ..." oder "Handel mit ...". Diese Anhängezahlen werden in der internationalen Dezimalklassifikation mit einem Strich an die Kennzahl des jeweiligen Begriffs angehängt. Neben diesen allgemeinen Begriffen gibt es noch eine Reihe von Verknüpfungssymbolen, die ganz spezifische semantische Bedeutungen haben. Z. B. wird durch das Gleichheitszeichen eine Sprache ausgedrückt: 860=20 bezeichnet "Spanische Literatur in englischer Sprache", durch runde Klammern ein Ort: 622.33(493) bezeichnet "Kohlebergbau in Belgien" oder durch die Anhängezahl - 05 eine Person: 655.1 - 05 bezeichnet "Buchdrucker" (alle Beispiele aus Manecke, 1997 [->]). Durch solche Verfahren erhält die Klassifikation eine komplexere Syntax, mit der insbesondere komplexe Objekte genauer modelliert werden können. Sie gehen damit in Richtung eines Repräsentationsansatzes, wie er in der künstlichen Intelligenz weiterentwickelt wurde.

Diese Ansätze, Aspekte ausserhalb der eigentlichen hierarchischen Klassifikation zu modellieren, indem Bezeichner erst bei der Einordnung eines Objekts konstruiert werden, bezeichnet man als Postkoordination.

Eine andere Weiterentwicklung der Klassifikationen hin zu mehr Flexibilität und einer stärkeren Ausdrucksfähigkeit sind Facettenklassifikationen. Hier werden zunächst sogenannte Grundkategorien gebildet, die den Gesichtspunkten entsprechen, unter denen die Objekte betrachtet werden können. Für jede Grundkategorie werden dann als mögliche Werte sogenannte Facetten angegeben. Diese Facetten können auch hierarchisch strukturiert sein. Ein Bezeichner besteht jetzt aus Teileinträgen aus jeder Grundkategorie. Die Toman Klassifikation für das Bibliothekswesen und die Informationsarbeit (beschrieben in Manecke 1997) enthält z. B. die in Abbildung 24 angegebenen Grundkategorien. Die Facetten der ersten Grundkategorie "Leistungen" sind in Abbildung 25 angegeben.

Abb. 24: Die Grundkategorien der Toman Facettenklassifikation (nach Manecke 1997)

Abb. 25: Die Facetten der ersten Grundkategorie der Toman Facettenklassifikation (nach Manecke 1997)

Die Facettenklassifikation kann als mehrdimensionales System angesehen werden, bei dem in jeder Dimension eine von den anderen Dimensionen (mehr oder weniger) unabhängige Klassifikation angewendet wird. Man kann sie in diesem Sinne als postkoordinierende Klassifikation betrachten, weil nicht alle möglichen Bezeichner (also alle möglichen Kombinationen von Klassifikationenen in den einzelnen Dimensionen) vorher festgelegt zu werden brauchen. Der Bezeichner wird bei der Einordung eines Objektes zusammengesetzt. Dadurch wird eine größere Flexibilität erreicht. Man sieht, dass die Facettenklassifikation dabei dem Modell einer Faktendatenbank sehr ähnlich ist: In einer fest vorgegebenen Anzahl von Grundkategorien (Attributen) müssen Angaben gemacht werden, bzw. es muss explizit (durch eine Null) angegeben werden, dass keine Angaben gemacht werden sollen.

Diese Beobachtung ist durchaus symptomatisch: Klassifikationen ermöglichen es durch ihre Systematik, Wissen zu ordnen. Die Ordnungskriterien sind dabei aber häufig eher formal oder durch einen bestimmten Aspekt bestimmt. Damit sind sie in vielen Fällen wenig intuitiv und flexibel. Durch elektronische Systeme können komplexere, vielfältigere oder auch einfach mehrere parallele Systematiken angeboten werden, die im manuellen Betrieb nicht mehr zu bewältigen wären. Dadurch eröffnen sich weitere Zugriffswege zu Informationen. Klassifikationen haben durch die Entwicklung von Hypertextsystemen wieder eine gewisse Aktualität erlangt, aber auch im WWW werden zunehmend komplexere Suchfunktionalitäten angeboten.