Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Hierarchische Verzeichnisse oder Web Directories
Stichwörter dieser Seite Kategorie, Faktendatenbank, Recall
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.3.1: Klassifikation des Open Directory Project

Die Weiterentwicklung der Klassifikation soll in möglichst großer Eigenverantwortung der "Community" stattfinden. Dazu gibt es ausführliche Dokumente mit allgemeinen Richtlinien sowie elektronische Foren und E-Mail-Listen, um sich gegenseitig abzustimmen. Die Entscheidung über die Einrichtung von Unterkategorien liegt aber zunächst bei den Redakteurinnen und Redakteuren der einzelnen Klassen. Dabei sind die Rechte nach der hierarchischen Tiefe der betreuten Klassen gestaffelt.

Anfang 2002 hatte das ODP nach Angaben auf der Web-Seite ([->] ) 17 Top-Level-Klassen, 471 038 Kategorien, 46 117 freiwillige Redakteurinnen und Redakteure und verzeichnete 3 200 263 Web-Angebote. Sechzehn der Top-Level-Klassen sowie einige der darunter liegenden Klassen, die auf der Einstiegsseite von ODP angeboten werden, sind in Abbildung 102 angegeben. Die letzte Top-Level-Klasse heißt Adult und erscheint nicht auf der Einstiegsseite.

Pfeil als Kennzeichnung einer Unterueberschrift Abbildung 102: Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit Beispielen der zweiten Hierarchiestufe

Schon auf dieser Einstiegsseite kann man einige Beobachtungen zur Anwendung von hierarchischen Klassifikationen auf das Web machen. So ist es schwierig, ein gemeinsames Kriterium auszumachen, nach denen die Klassen gebildet sind: Während Klassen aus traditionellen Bibliotheksklassifikationen wie Science mit den Unterklassen Biology, Psychology, Physics oder Computer mit den Unterklassen Internet, Software, Hardware noch eine vergleichsweise offensichtliche Systematik aufweisen, scheinen andere Aufteilungen eher willkürlich, z.B. die Einordnung von Cooking unter Home und von Food unter Recreation.

Auch dass Media unter News zu finden ist und Television unter Arts, erscheint nicht unbedingt zwingend. (Andererseits muss nach den Richtlinien jeweils der ganze Pfad durch die Hierarchie berücksichtigt werden, Television müsste also als Arts:Television gelesen werden. Ob dieses Verständnis allerdings bei den Nutzenden vorausgesetzt werden kann und welche Angebote unter Arts:Television und welche unter News:Media oder vielleicht Regional fallen, bleibt unklar.)

Weiter gibt es die Klasse Kids and Teens, in der Arts (also ein Klassenname aus der obersten Hierarchiestufe) noch einmal auftritt. Berücksichtigt man hier wieder den ganzen Klassenpfad, muss man sich fragen, woher Nutzende am Beginn der Klassifikation - also in der ersten Hierarchiestufe - wissen sollen, dass Kids and Teens:Arts nicht unter Arts, sondern unter Kids and Teens zu suchen ist.

Die Klasse Regional, in der Seiten mit nur regionaler Bedeutung gesammelt sind, rückt wieder einen anderen Aspekt in den Vordergrund, nämlich den geografischen Ort (ohne auf dieser Ebene auf die Themen einzugehen). Schließlich werden unter der Klasse World Seiten ausgewiesen, die nicht englischsprachig sind (also sinnvollerweise non-English oder Rest der Welt heißen könnten).

Es werden also offensichtlich unterschiedliche Attribute oder Kriterien für die Bildung der Klassen verwendet. Trotzdem, oder vielleicht gerade deswegen, erscheint die Einteilung der Themen alltagstauglich - zumindest, wenn man sich etwas in die amerikanische Sicht der Welt versetzen kann (in der offensichtlich z.B. UK und Europe verschiedene Klassen sind).

Von einem systematischen Standpunkt aus wäre es sicherlich näher liegend, viele der Eigenschaften als (unabhängige) Attribute im Sinne einer Facettenklassifikation oder einer Faktendatenbank zu modellieren (z.B. lokaler Bezug, Sprache, Zielgruppe, usw.), aber offensichtlich wurde hier ein anderer Weg gewählt.

Über die Gründe dafür lässt sich nur spekulieren:

  • Die Baumstruktur einer hierarchischen Klassifikation lässt sich sehr gut auf ein Angebot aus verlinkten Web-Seiten abbilden, weil sie in jeder Klasse nur eine beschränkte Auswahl zulässt und sich die Suchenden Schritt für Schritt entscheiden können. Die Auswahlen erscheinen intuitiv und erfordern nur eine Entscheidung, nicht die Beschreibung in mehreren Dimensionen. Schließlich wird all das, was nicht gefunden wird, zunächst nicht wahrgenommen.
  • Dezentraler Aufbau und verteilte Pflege sind verhältnismäßig einfach, da die Anbieter durch die Wahl der Klasse bereits die meisten Entscheidungen getroffen haben und auch die "zuständige" Redakteurin oder der "zuständige" Redakteure dadurch bestimmt wird. Diese müssen die Vorschläge nur noch bestätigen - wenn sie denn halbwegs zutreffen. Es müssen nicht zahlreiche Attribute oder Beschreibungsfelder ausgefüllt werden.
  • Durch die Beteiligung von Anbietenden und Nutzenden als freiwillige Redakteure und Redakteurinnen auf ihrem jeweiligen Spezialgebiet "wächst" eine Klassifikation, die den Spezialgebieten und deren "durchschnittlichen" Nutzenden angepasst ist. Beide Gruppen lernen diese Strukturierung durch die Benutzung, gegebenenfalls kann dadurch eine "Community" entstehen.

Probleme, die sich bei diesem Ansatz ergeben, sind allerdings auch leicht zu benennen:

Geringe Systematik erschwert guten Recall

Der intuitive und wenig systematische Aufbau der Klassifikation lässt sich nur schwer in einen Algorithmus übersetzen; eine systematische Zuordnung anhand von halbwegs klar definierten Attributen ist kaum möglich. Daher dürfen die Erwartungen an den Recall bei der Suche mit diesem System nicht zu hoch angesetzt werden. Stichproben in einigen Klassen zeigen auch, dass die Abdeckung trotz der beeindruckenden Zahlen teilweise eher dünn ist.

Unübersichtlichkeit

Es ist nicht ohne weiteres möglich, zu einem Web-Angebot immer eindeutig einen Weg durch die Klassifikation zu finden, zumal wenn Entscheidungen schrittweise in den Hierarchiestufen der Klassifikation getroffen werden und nicht Wissen über tiefer in der Hierarchie liegende Klassen vorweggenommen wird. Ein einfaches Beispiel dafür ist wieder die Unterklasse Arts in der Klasse Kids and Teens aus Abbildung 102 : Weiß man nicht, dass es diese Unterklasse gibt, kann man auf der ersten Hierarchiestufe nicht entscheiden, ob ein Kunstangebot für Kinder unter Arts oder unter Kids and Teens zu finden ist.

Bei fast einer halben Million Klassen ist ein echter Überblick über die Klassifikation kaum möglich. Die Anforderung aus der Definition einer Klassifikation, dass die Themen bzw. Konzepte, die durch die Klassen einer Ebene beschrieben werden, disjunkt sein sollten, kann kaum überprüft werden. (Die Frage, ob die Mengen der in verschiedenen Klassen eingetragenen Web-Angebote disjunkt sind, lässt sich technisch überprüfen, wenn man von geschickten Täuschungsmanövern absieht. Das garantiert aber noch nicht, dass auch die Themen oder Konzepte gut getrennt sind.)

Uneinheitliche Auszeichnung

Die sehr große Anzahl von fast 50 000 Redakteurinnen und Redakteuren dürfte nicht dazu beitragen, dass die Klassifikation in ihren verschiedenen Teilen sehr einheitlich ausfällt. Es ist eher zu erwarten, dass es sich um eine Sammlung von "Inseln" handelt, die mehr oder weniger gepflegt und in sich homogen sind. Es dürfte sich auch kaum vermeiden lassen, dass in vielen Fällen persönliche Sichtweisen und Vorlieben die Beurteilungen gewollt oder ungewollt beeinflussen. Solche Einflüsse gibt es auch bei professionellen Verzeichnissen; es ist dort aber eher zu erwarten, dass sie sich als "Firmenpolitik" auf das ganze Verzeichnis erstrecken und nicht auf einzelne Bereiche. Dadurch sind sie leichter zu erkennen und einzuschätzen.

Aber auch wenn die redaktionell betreuten hierarchischen Verzeichnisse nicht den strengen Maßstäben z.B. eines Bibliothekskatalogs oder einer botanischen Systematik genügen, haben sie unbestreitbare Vorteile: Die Tatsache, dass die Web-Angebote von Menschen mit Sachkenntnis auf dem jeweiligen Gebiet unter verschiedenen Gesichtspunkten begutachtet und auch kurz beschrieben werden, ist eine wertvolle Einschätzung, selbst ohne die Einordnung in die Klassifikation. Sie kann z.B. von Web-Suchmaschinen genutzt werden, um automatisch gefundene Seiten besser einzuschätzen.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Hierarchische Verzeichnisse oder Web Directories
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.3.1Klassifikation des Open Directory Project
Abb. 102 Die Top-Level-Klassen der Open-Directory-Projekt-Klassifikation mit Beispielen der zweiten Hierarchiestufe
Kategorie, Faktendatenbank, Recall Faktendatenbank, Kategorie, Recall

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.