Indexierungsmethoden [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente -> Suche nach und in XML-Dokumenten
Stichwörter dieser Seite	textuelle Indexierung, flat-file indexing, Feldindexierung, field-based indexing, Dokumentvektor, Fakten-Retrieval, IR/DB indexing, Faktendatenbank, Strukturindexierung, structured indexing, Pfadindexierung, path-based indexing, positionsbasierte Indexierung, position-based indexing
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4.1.4.2: Indexierungsmethoden

Eine Übersicht über Methoden und Systeme für die Indexierung von und die Suche nach XML-Dokumenten findet sich in Luk, Leong, Dillon, Chan, Croft und Allan (2002) [->] . Sie stellen Indexierungskonzepte, Implementierungsansätze und Eigenschaften konkreter Systeme zusammen. Die getrennte Beschreibung von Indexierungs- und Suchmethoden hat den Vorteil, dass genau spezifiziert werden muss, welche Informationen und Strukturen zum Zeitpunkt der Indexierung extrahiert werden müssen. Sie erschwert allerdings die integrierte Darstellung der Suchkonzepte. Deshalb wird sie in der folgenden kurzen Darstellung dieser Konzepte nicht wirklich durchgehalten.

Textuelle Indexierung

Die textuelle Indexierung (flat-file indexing) betrachtet ein XML-Dokument als Text und berücksichtigt die durch XML gegebene Struktur nicht. Dabei kann man zwischen Ansätzen unterscheiden, die die Tags ignorieren, und solchen, bei denen auch nach Tags gesucht werden kann. Es können die normalen Indexierungs- und Suchverfahren für unstrukturierte Texte angewendet werden.

Feldindexierung

Die Feldindexierung (field-based indexing) identifiziert einzelne XML-Elemente und behandelt sie als Felder, wie sie am Beispiel einer Literaturdatenbank (Abbildung 1.1.3 ) beschrieben wurden. Es können Gewichtungs- und Suchverfahren angewendet werden, die die Feldinformation bei der Suche nutzen: Zum einen kann spezifiziert werden, in welchem Feld eines Dokuments (bzw. seines Indexes) ein Term auftauchen soll, zum anderen können einzelne Felder sowohl im Dokumentvektor als auch in der Anfrage unterschiedlich gewichtet werden. Dieser Ansatz nutzt nur einzelne Elemente der XML-Struktur, nicht aber komplexere Schachtelungen. Die genutzten Elemente müssen aber nicht alle auf der gleichen Ebene liegen, sie können auch Unterelemente besitzen, deren XML-Struktur aber nicht genutzt wird.

Ein ganz ähnlicher Ansatz ist die Integration von IR und Fakten-Retrieval (IR/DB indexing), bei der aus dem XML-Dokument Einträge für eine Faktendatenbank extrahiert und z.B. in einer relationalen Datenbank gespeichert und suchbar gemacht werden (siehe Abschnitt 1.1.4 ). Damit stehen die Vorteile dieser Systeme wie sichere Transaktionen und schneller Zugriff auf einzelne Tabellen zur Verfügung.

Strukturindexierung

Bei der Strukturindexierung (structured indexing) kann die volle Strukturinformation eines XML-Dokuments zur Indexierung genutzt werden. Der wichtigste Fall ist die Pfadindexierung (path-based indexing), bei der die Position eines Elements in der Baumstruktur der Elemente des XML-Dokuments genutzt wird, also im Wesentlichen die Möglichkeiten, die durch XPath gegeben sind. Damit ist es möglich, gezielt nach bestimmten Teilen eines Dokuments zu suchen.

Werden relative Pfade benutzt, kann nach direkten Beziehungen zwischen Elementen gesucht werden. Zum Beispiel könnte geprüft werden, ob ein author-Element ein Unterelement name enthält. So kann man zwischen dem Namen eines Autors oder einer Autorin und einem sonst verwendeten Namen unterscheiden, wenn die DTD entsprechend angelegt wurde.

Andere nutzbare Strukturen sind z.B. Verweisstrukturen, die aber nicht mehr hierarchisch sein müssen. Über die Verwendung von Verweisstrukturen zwischen Dokumenten wird in Abschnitt 4.3.4.3.1 berichtet.

Eine weitere Möglichkeit ist die (Layout-)positionsbasierte Indexierung (position-based indexing), bei der die Position im tatsächlichen Seitenlayout, das z.B. in Stylesheets vorliegt, verwendet wird. Sie bietet im Prinzip eine Möglichkeit, das Chaos, das viele Web-Designer und ihre Design-Programme im Quelltext hinterlassen, zur strukturierten Suche zu nutzen. Es ist allerdings fraglich, wie erfolgreich ein solcher Ansatz ist.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Explizit strukturierte Dokumente -> Suche nach und in XML-Dokumenten

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

4.1.4.2

Indexierungsmethoden

textuelle Indexierung, flat-file indexing, Feldindexierung, field-based indexing, Dokumentvektor, Fakten-Retrieval, IR/DB indexing, Faktendatenbank, Strukturindexierung, structured indexing, Pfadindexierung, path-based indexing, positionsbasierte Indexierung, position-based indexing

Dokumentvektor, Fakten-Retrieval, Faktendatenbank, Feldindexierung, field-based indexing, flat-file indexing, IR/DB indexing, path-based indexing, Pfadindexierung, position-based indexing, positionsbasierte Indexierung, structured indexing, Strukturindexierung, textuelle Indexierung

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.