Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Metadaten
Stichwörter dieser Seite Metadaten, Document Like Objects, DLO, Dublin Core, Dublin Core Metadata Initiative, DCMI, Stichwort, Abstract, Relation, internationalization, localization, Interoperabilität, unqualified Dublin Core, qualified Dublin Core, Spezialisierung, Refinement, encoding scheme, Refinement, Alternative, Table of Contents, Abstract, Created, Valid, Available, Issued, Modified, Extent, Medium, Relation, Is Version Of, Has Version, Is Replaced By, Replaces, Is Required By, Requires, Is Part Of, Has Part, Is Referenced By, References, Is Format Of, Has Format, Spatial, Temporal, LCSH, MeSH, DDC, LCC, UDC, DCMI Period, W3C-DTF, DCMI Type Vocabulary, IMT, URI, ISO 639-2, RFC 1766, Relation, URI, DCMI Point, ISO 3166, DCMI Box, TGN, DCMI Period, W3C-DTF, Attribut-Wert-Paar, Namensraum, RDF
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.2.1: Dublin-Core-Metadaten

Als ersten Schritt hin zur einheitlichen Beschreibung von digitalen Objekten durch Metadaten hat man sich Mitte der 1990er Jahre zunächst auf so genannte Document Like Objects (DLO) beschränkt. Ein DLO steht für die digitale Form dessen, was man bisher als Dokument kannte. Es wurde zunächst ganz bewusst nicht genauer definiert. Diese Überlegungen zur Entwicklung eines Metadatenformats für DLO gehen auf einen Workshop zurück, der 1995 in Dublin, Ohio stattfand (Weibel, Godby, Miller und Daniel, 1996 [->] ), um über Wege zur Beschreibung von Objekten im Internet nachzudenken.

Nach diesem Ort ist eine Sammlung von Metadatenelementen als Dublin Core benannt worden, die - wie der Name sagt - einen Kern von Angaben bilden soll, mit dem ein DLO beschrieben werden kann. Ziel der Überlegungen war es, eine Menge von einfachen Elementen zu definieren, deren Namen möglichst intuitiv sind oder durch kurze Definitionen erläutert werden können. Dahinter stand die Überlegung, dass die große Mehrzahl der Web-Dokumente nicht von Expertinnen und Experten beschrieben werden können, sondern dass die Metadaten durch die Autorinnen und Autoren zur Verfügung gestellt werden müssen. Das Dublin Core Element Set wird von der Dublin Core Metadata Initiative (DCMI) [->] entwickelt. Es enthält zurzeit die folgenden Elemente:

  • Title: Namen des Objekts.
  • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren.
  • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems.
  • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis.
  • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen.
  • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).
  • Date: Datum von Ereignissen, die mit dem Objekt verbunden sind, wie das Veröffentlichungsdatum.
  • Type: Art oder Genre des Objektinhalts (z.B. Erzählung, Gedicht oder Lexikon).
  • Format: Physisches oder digitales Format des Objekts (wie PostScript oder ausführbares Programm, aber auch Dauer und Größe).
  • Identifier: Zeichenkette oder Nummer, mit der das Objekt in einem Kontext eindeutig identifiziert werden kann (URL, URI, ISBN, DOI).
  • Source: Informationen über Objekte, aus denen das zu beschreibende Objekt abgeleitet wurde.
  • Language: Sprache des Inhalts des Objekts.
  • Relation: Beziehung zu anderen, verwandten Objekten.
  • Coverage: Räumliche und zeitliche Charakteristika des Objektinhalts.
  • Rights: Informationen über (Urheber- und Verwertungs-)Rechte an dem Objekt und seinem Inhalt bzw. die Inhaber dieser Rechte.
  • Audience: Zielgruppe, für die das Objekt erstellt wurde oder für die es nützlich ist.
Die aktuelle Version findet sich auf der Dublin Core Homepage [->] . Die erste Version und ihre Entstehung wurde von Weibel, Godby, Miller und Daniel (1996) [->] beschrieben. Abbildung 100 zeigt ein Beispiel für eine Dublin-Core-Beschreibung.

Man sieht, dass sich viele der Elemente an bibliografischen Daten für "Papierdokumente" orientieren, wobei die möglichen Einträge für digitale Dokumente angepasst sind (Format, Identifier). Die Definition der Metadatenelemente liegt unterdessen in zahlreichen Sprachen vor, wobei die Elementnamen nicht verändert werden. Bei der Entwicklung der Beschreibung in anderen Sprachen (internationalization) muss entschieden werden, wieweit der ursprünglich englische/amerikanische Text an lokale Traditionen und Bedingungen der Länder, in denen die Sprachen gesprochen werden, angepasst werden kann und muss (localization).

Neben der Benennung der Elemente wurde bereits früh eine Reihe von Eigenschaften der Elemente bzw. Prinzipien ihres Auftretens in einer Metadatenbeschreibung festgelegt:

  • Dublin-Core-Elemente beschreiben intrinsische Eigenschaften von Objekten, also Eigenschaften des Objekts selbst. Dieses Prinzip wurde allerdings nicht vollständig durchgehalten.
  • Erweiterbarkeit der Elementsammlung. Weitere Elemente müssen nicht von allen Systemen, die mit Dublin Core arbeiten, verstanden werden. Die Systeme müssen die Existenz unbekannter Elemente aber tolerieren.
  • Unabhängigkeit von einer spezifischen Syntax: Hier war die Überlegung vor allem, dass es zum damaligen Zeitpunkt noch zu früh war, eine spezielle Syntax festzulegen. Wieweit eine genaue Spezifikation von Formaten und zu verwendenden inhaltlichen Beschreibungen sinnvoll ist, hängt von der Zielsetzung und Anwendung ab. Je genauer die Formate spezifiziert werden, desto besser können sie verglichen werden, desto größer ist aber auch die Gefahr, dass andere Systeme sie nicht mehr interpretieren können (mangelnde Interoperabilität).
  • Optionalität: Dublin-Core-Elemente können benutzt werden, sie müssen es aber nicht. Es gibt keine Elemente, die immer angegeben werden müssen. Das hat zwei Gründe: Zum einen können für neuartige Objekte manche Elemente, die jetzt noch sehr zwingend erscheinen, wenig sinnvoll sein, zum anderen wollte man Autorinnen und Autoren nicht durch komplizierte Vorschriften abschrecken. Eine kurze Beschreibung ist besser als gar keine.
  • Wiederholbarkeit: Alle Elemente können mehrmals in einem Datensatz auftreten. So können mehrere Autorinnen aufgeführt oder verschiedene Relationen zu verwandten Objekten angegeben werden.
  • Veränderbarkeit: Jedes Element kann durch die Angabe eines Attributs verändert werden, wenn dadurch eine spezifische Interpretation des Inhalts vorgegeben wird. So können z.B. in einem Gebiet bewährte Inhaltsklassifikationen in Dublin Core übernommen werden. Dazu wird ein Verweis auf das Klassifikationsschema angegeben.
Durch diese Prinzipien soll Dublin Core klein und flexibel gehalten werden. Gleichzeitig soll es möglich sein, vorhandene Metadatenschemata zu integrieren. Dublin Core hätte damit eine Integrationsfunktion für verschiedene Auszeichnungs- und Metadatenschemata.

Nach dem ersten Workshop in Dublin (Ohio) haben weitere Workshops stattgefunden, die sich mit spezifischen Problemen bei der Entwicklung des Formats befasst haben. Dabei hat sich gezeigt, dass die Ansichten über einige der oben aufgeführten Prinzipien durchaus auseinander gehen. Insbesondere bei der Frage, wie weit genaue Formate und ausgearbeitete Strukturen bei den einzelnen Elementen vorgegeben werden sollen, gibt es (mindestens) zwei Positionen: Während die eine vor allem die einfache Anwendbarkeit und die Austauschbarkeit (Interoperabilität) betont und deshalb keine komplexen Strukturen einführen will, betont die andere die Notwendigkeit, durch genauere Vorgaben den Nutzen der Beschreibungen zu erhöhen. Insbesondere soll es möglich sein, vorhandene und bewährte Beschreibungsstandards auch in Dublin Core zu benutzen.

Die erste Position sieht Dublin-Core-Metadaten als eine kleinste gemeinsame Basis zwischen verschiedenen Auszeichnungsformaten, mit der deren Gemeinsamkeiten genutzt werden sollen. Baker (1998) [->] vergleicht diese Rolle mit dem Pidgin-Englisch, das sich entwickelte, als sich Sklaven mit verschiedenen Muttersprachen bei der Arbeit verständigen mussten. Die so entstandene Sprache beschränkte sich zunächst auf die notwendigsten Begriffe, entwickelte sich im Laufe der Zeit aber zu einem immer vollständigeren Verständigungsmittel.

Die zweite Position legt mehr Wert auf die Nutzung bewährter Beschreibungsmittel und -methoden. Solche komplexen Beschreibungen können zwar in der Regel nur von geschulten Personen erstellt und von spezialisierten Suchprogrammen genutzt werden; sie können dafür aber wesentlich genauer sein und vorhandene Beschreibungen lassen sich weiterverwenden.

Aus diesen zwei Positionen haben sich zwei Sichten oder Versionen gebildet: Als unqualified Dublin Core wurden nur die Elementbeschreibungen ohne weitere Vorgaben über die Formate und zu verwendenden Beschreibungen bezeichnet. Bei qualified Dublin Core wurden Spezialisierungen (Refinements) und Inhalts- bzw. Formatvorgaben (encoding schemes) vorgegeben. Die Dublin-Core-Empfehlung Dublin Core Qualifiers vom 11. Juli 2000 [->] enthielt die im Folgenden dargestellten Spezifizierungsempfehlungen. Sie wurden unterdessen als Refinements zur Liste der DCMI-Elemente hinzugefügt (siehe [->] ):

und folgende Formatempfehlungen:
  • Subject: LCSH (Library of Congress Subject Headings), MeSH (Medical Subject Headings), DDC (Dewy Decimal Classification), LCC (Library of Congress Classification), UDC (Universal Decimal Classification)
  • Date: DCMI Period (Dublin-Core-Format für Zeiträume), W3C-DTF (W3C-Format für Datum und Zeit, basierend auf ISO 8 601)
  • Type: DCMI Type Vocabulary (Dublin-Core-Vokabular für Dokumenttypen)
  • Format: IMT (Medientyp (Internet Media Type))
  • Identifier: URI (Uniform Resource Identifier)
  • Language: ISO 639-2 (ISO-Norm mit Buchstaben-Codes für Sprachen), RFC 1766 (Erweiterung der ISO-Norm mit Ländercodes)
  • Relation: URI (Uniform Resource Identifier)
  • Coverage (räumlich): DCMI Point (Dublin-Core-Spezifikation nach räumlichen Koordinaten), ISO 3166 (ISO-Spezifikation für Ländernamen), DCMI Box (Dublin-Core-Definition einer geografischen Fläche), TGN (Getty-Thesaurus geografischer Namen)
  • Coverage (zeitlich): DCMI Period (Dublin-Core-Format für Zeiträume), W3C-DTF (W3C-Format für Datum und Zeit basierend auf ISO-8601)
Zu Dublin-Core-Metadaten gab es bereits 1996 einen DTD-Entwurf, mit dem eine Metadatenbeschreibung als SGML-Dokument notiert werden konnte. Häufiger werden Dublin-Core-Metadaten aber in den Meta-Tags im Head von HTML-Seiten als Attribut-Wert-Paare verwendet. Dabei wird als Namensraumkennung das Kürzel dc: verwendet. Dublin Core ist auch eine Referenzanwendung in der Entwicklung des Resource Description Framework (RDF), das am Ende dieses Kapitels beschrieben wird (Abschnitt 4.2.4 ).

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Metadaten
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.2.1Dublin-Core-Metadaten
Metadaten, Document Like Objects, DLO, Dublin Core, Dublin Core Metadata Initiative, DCMI, Stichwort, Abstract, Relation, internationalization, localization, Interoperabilität, unqualified Dublin Core, qualified Dublin Core, Spezialisierung, Refinement, encoding scheme, Refinement, Alternative, Table of Contents, Abstract, Created, Valid, Available, Issued, Modified, Extent, Medium, Relation, Is Version Of, Has Version, Is Replaced By, Replaces, Is Required By, Requires, Is Part Of, Has Part, Is Referenced By, References, Is Format Of, Has Format, Spatial, Temporal, LCSH, MeSH, DDC, LCC, UDC, DCMI Period, W3C-DTF, DCMI Type Vocabulary, IMT, URI, ISO 639-2, RFC 1766, Relation, URI, DCMI Point, ISO 3166, DCMI Box, TGN, DCMI Period, W3C-DTF, Attribut-Wert-Paar, Namensraum, RDF Abstract, Abstract, Alternative, Attribut-Wert-Paar, Available, Created, DCMI, DCMI Box, DCMI Period, DCMI Period, DCMI Point, DCMI Type Vocabulary, DDC, DLO, Document Like Objects, Dublin Core, Dublin Core Metadata Initiative, encoding scheme, Extent, Has Format, Has Part, Has Version, IMT, internationalization, Interoperabilität, Is Format Of, Is Part Of, Is Referenced By, Is Replaced By, Is Required By, Is Version Of, ISO 3166, ISO 639-2, Issued, LCC, LCSH, localization, Medium, MeSH, Metadaten, Modified, Namensraum, qualified Dublin Core, RDF, References, Refinement, Refinement, Relation, Relation, Relation, Replaces, Requires, RFC 1766, Spatial, Spezialisierung, Stichwort, Table of Contents, Temporal, TGN, UDC, unqualified Dublin Core, URI, URI, Valid, W3C-DTF, W3C-DTF

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 13-05-2004 erzeugt.