Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente -> Suche nach und in XML-Dokumenten
Stichwörter dieser Seite Cosinus-Maß, Trainingsmenge
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.1.4.5: Suche bei unterschiedlichen DTDs

In XML können verschiedene DTDs für unterschiedliche Themenbereiche und Anwendungen zur Verfügung gestellt werden. Durch die Einführung von Namensräumen können Elemente aus mehreren DTDs in einem Dokument gemischt werden. Dadurch können viele verschiedene und komplexe Dokumenttypen entstehen, für die allgemein Suchkonzepte oder spezieller Gewichtungsverfahren entwickelt werden müssen.

Die Gewichtung von Termen und Textteilen ist bei vielen Ähnlichkeitsmaßen relativ, d.h., der Einfluss der Gewichtung eines Terms oder Textteils auf die Ähnlichkeit eines Dokuments zu einer Anfrage hängt von der Gewichtung anderer Terme oder Textteile ab. (Beim Cosinus-Maß wird der Einfluss z.B. durch die Normierung der Länge der Vektoren erreicht.) Das bedeutet aber, dass die Gewichtung von Termen für jeden aus verschiedenen DTDs zusammengesetzten Dokumenttyp neu entwickelt werden müsste. Um das für heterogene Sammlungen nicht "von Hand" machen zu müssen, können generalisierende Gewichtungsverfahren verwendet werden, die z.B. verschiedene Elemente zu Gruppen zusammenfassen, die bei der Gewichtung gleich behandelt werden. Ein ähnliches Verfahren besteht darin, verschiedene komplexe DTDs auf eine einfache DTD abzubilden, für die Such- und Gewichtungsverfahren definiert werden und die Dokumente, die mit den komplexen DTDs definiert sind, entsprechend auf die einfache DTD abzubilden. Dazu kann z.B. XSLT verwendet werden.

Eine andere Möglichkeit besteht darin, Lernverfahren einzusetzen, mit denen Gewichtungskonzepte gelernt werden können, wie es im Darmstädter Indexierungsansatz versucht wurde (siehe Abschnitt 3.5.6 ). Das setzt aber voraus, dass in einer genügend homogenen und stabilen Sammlung von Dokumenten gesucht wird, um brauchbare Trainingsmengen zu haben. Neben Lernverfahren, die die Elementnamen berücksichtigen, können auch Verfahren verwendet werden, die die Struktur der DTD untersuchen und gleiche Strukturen auch dann identifizieren, wenn die Namen nicht übereinstimmen. Dabei kann es sinnvoll sein, aus einer Sammlung von Dokumenten Rückschlüsse auf die Bedeutung der Elemente in der DTD zu ziehen. Auch Kombinationen dieser Methoden können verwendet werden.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente -> Suche nach und in XML-Dokumenten
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.1.4.5Suche bei unterschiedlichen DTDs
Cosinus-Maß, Trainingsmenge Cosinus-Maß, Trainingsmenge

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.