Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Das Web als Dokumentensammlung
Stichwörter dieser Seite Dokumentformat, Medienart, MIME Type, Link
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.1.1: Medienarten

Vergleichsweise klar und definiert, wenn auch komplex und vielfältig, ist die Dimension der Dokumentformate bzw. Medienarten: Für Texte gibt es neben HTML als der Auszeichnungssprache des Web viele andere Formate wie einfacher ASCII-Text, mehr oder weniger verbreitete proprietäre Formate wie Adobe PostScript, Adobe PDF (Portable Document Format) oder Formate von Textverarbeitungsprogrammen wie Microsoft Word oder - als Austauschformat - RTF (Rich Text Format). Dazu kommen eventuell unterschiedliche Zeichensätze für verschiedene Sprachen und Schriftsysteme. Neben Textdokumenten gibt es Dateiformate für Bilder wie GIF (Graphics Interchange Format), JPEG (Joint Photographic Expert Group) und Animationen wie Macromedia Flash, Videofilme wie MPEG (Motion Picture Expert Group), Tondateien wie das Wave Format oder MP3 (MPEG Audio Layer 3). Die verschiedenen Formate können durch den MIME Type (Multipurpose Internet Mail Extensions) spezifiziert werden. Genauere Beschreibungen und Verweise auf die Quellen und Spezifikationen finden sich z.B. in Wilde (1999) [->] oder Endres und Fellner (2000) [->] .

Die Probleme, die sich für die Suche aus diesen unterschiedlichen Formaten ergeben, hängen davon ab, was durch die Dateiformate beschrieben wird. Für Dateien, die keine Texte, sondern andere Medienarten beschreiben, müssen Suchverfahren bekannt sein, mit denen in diesen Medienarten und Dateiformaten gesucht werden kann, es müssen aus Dateinamen, Kommentaren, Links oder anderen Hinweisen Rückschlüsse gezogen werden, oder es können Social-Filtering-Verfahren angewendet werden. Die folgenden Darstellungen werden sich im Wesentlichen auf Textdokumente beschränken.

Für Dateien, die Texte enthalten, müssen Suchmaschinen in der Lage sein, die Formate zu lesen und den Text daraus zu extrahieren. Häufig ist es von Vorteil, wenn weitere Strukturinformationen wie Überschriften, Textteile etc. identifiziert werden können. Beides ist bei proprietären Formaten nicht immer möglich oder mit einem vertretbaren Aufwand zu leisten. Schließlich kann es wichtig sein, dass nur solche in einem Dokument gefundenen Textteile verwendet werden, die auch zum intendierten Inhalt des Dokuments gehören. So werden z.B. bei Microsoft Word teilweise auch Textteile gespeichert, die von den Bearbeitenden gelöscht wurden - sie sollten nicht in die Suche mit einbezogen werden. Schließlich gibt es auch Web-Seiten, auf denen Text als Bild dargestellt wird, z.B. um eine bestimmte Schriftart zu verwenden, Text in einer bestimmten Form darzustellen (z.B. bei mathematischen Formeln) oder aus schlichter Unkenntnis. Prinzipiell könnten auf solche Texte Texterkennungsverfahren angewendet werden, das ist aber in aller Regel nicht praktikabel. In HTML gibt es zudem das ALT-Attribut, mit dem Elementen wie Bildern eine Beschreibung mitgegeben werden kann. Aber auch davon wird nicht immer (sinnvoll) Gebrauch gemacht. Ob diese Beschreibung für die Suche genutzt wird, hängt von den einzelnen Suchmaschinen ab.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Das Web als Dokumentensammlung
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.1.1Medienarten
Dokumentformat, Medienart, MIME Type, Link Dokumentformat, Link, Medienart, MIME Type

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.