Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente
Stichwörter dieser Seite Vektorraummodell, Dokumentvektor, Indexterm
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.1.4: Suche nach und in XML-Dokumenten

Mit XML wird ein System geschaffen, mit dem viele und vergleichsweise gut dokumentierte Daten über die (interne) Struktur von Dokumenten und Datensätzen zur Verfügung gestellt werden können. Prinzipiell können solche Daten zur Verbesserung der Suche nach Dokumenten genutzt werden. Es bleibt aber zu untersuchen, wie weit das mit den bisher vorhandenen und geplanten Mitteln möglich und realistisch ist.

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.4.1: Anwendungen von XML bei der Suche

Die Dokumentstruktur kann bei der Suche - wie wiederholt erwähnt - verwendet werden, um einzelne Terme oder Teile eines Dokuments im Vektorraummodell zu gewichten. Dazu ist die reine Baumstruktur, wie sie zunächst von XML geliefert wird, allerdings nur bedingt hilfreich. Was benötigt wird, ist die Semantik der XML-Elemente, also das Wissen, welchen Inhalt ein Element hat, und ein Konzept, wie diese Inhalte z.B. in einem Dokumentvektor gewichtet werden sollen.

Eine weitere Frage ist, auf welchen Hierarchiestufen XML-Elemente sinnvoll für die Suche genutzt werden können. Bei einigen Elementen scheint das verhältnismäßig klar: Sinnvoll erscheinen einige Elemente auf der Wortebene wie Autoren und Autorinnen, Indexterme für das Stichwortverzeichnis oder Überschriften und Ankertexte. Wieweit aber Einteilungen auf hoher Ebene, also Elemente mit vielen Unterelementen wie Teile oder Kapitel eines längeren Dokuments, sinnvoll für die Gewichtung in Dokumentvektoren genutzt werden können, ist zunächst unklar. Sie können aber genutzt werden, um - bei langen Dokumenten - einzelne Teile wie Kapitel als Ergebnis einer Suche zu spezifizieren.

Am einfachsten erscheint die Nutzung von Dokumentstrukturen für die Suche, wenn für eine ganze Sammlung nur eine DTD mit einer einheitlichen Semantik für alle Dokumente verwendet wird, wie es in HTML getan wurde. Die Entwicklung der Anwendung von HTML hat aber auch gezeigt, dass nicht davon ausgegangen werden kann, dass eine solche Semantik von den Autorinnen und Autoren der Web-Dokumente auch einheitlich verwendet wird (siehe Abschnitt 4.3.1 ).

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.4.2: Indexierungsmethoden

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.4.3: Modelle für die Suche in XML-Dokumenten

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.4.4: Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten

Pfeil als Kennzeichnung einer Unterueberschrift 4.1.4.5: Suche bei unterschiedlichen DTDs

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.1.4Suche nach und in XML-Dokumenten
4.1.4.1Anwendungen von XML bei der Suche
4.1.4.2Indexierungsmethoden
4.1.4.3Modelle für die Suche in XML-Dokumenten
4.1.4.4Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten
4.1.4.5Suche bei unterschiedlichen DTDs
Metadaten, Vektorraummodell, Dokumentvektor, Indexterm, textuelle Indexierung, flat-file indexing, Feldindexierung, field-based indexing, Dokumentvektor, Fakten-Retrieval, IR/DB indexing, Faktendatenbank, Strukturindexierung, structured indexing, Pfadindexierung, path-based indexing, positionsbasierte Indexierung, position-based indexing, invertierte Liste, invertierte Liste, Vektorraummodell, labeled node, SGML, Attribut, sub-tree, Teilbaum, Ast, logisches Dokument, strukturierte Terme, Einbettung, Auftreten eines strukturierten Terms, Stichwort, Dokumentvektor, Termhäufigkeit, Dokumenthäufigkeit, TF-IDF, Bottom-up, Cosinus-Maß, Trainingsmenge Ast, Attribut, Auftreten eines strukturierten Terms, Bottom-up, Cosinus-Maß, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Einbettung, Fakten-Retrieval, Faktendatenbank, Feldindexierung, field-based indexing, flat-file indexing, Indexterm, invertierte Liste, invertierte Liste, IR/DB indexing, labeled node, logisches Dokument, Metadaten, path-based indexing, Pfadindexierung, position-based indexing, positionsbasierte Indexierung, SGML, Stichwort, structured indexing, strukturierte Terme, Strukturindexierung, sub-tree, Teilbaum, Termhäufigkeit, textuelle Indexierung, TF-IDF, Trainingsmenge, Vektorraummodell, Vektorraummodell

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.