Zeichenketten, Wörter und Konzepte [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren
Stichwörter dieser Seite	kontrolliertes Vokabular, Vergleichbarkeit von Inhalten
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.2: Zeichenketten, Wörter und Konzepte

Im vorigen Abschnitt wurden Terme als Zeichenketten definiert, die nach bestimmten Regeln ausgewählt werden. Dieser Ansatz bietet eine gewisse Flexibilität in Bezug auf verschiedene Formen eines Worts. So kann durch Trunkierung am Wortende eine ganze Reihe von verschiedenen Formen eines Worts zusammengefasst werden. Diese Möglichkeiten beschränken sich allerdings auf Wörter, deren Schreibweise eine solche Erfassung verschiedener Formen zulässt. In Abbildung 13 ist ein Beispiel angegeben, bei dem ein solcher Versuch misslungen ist.

Abbildung 13: Trunkierungen, die nicht nur Tiere ausschließen

Dieses Beispiel aus einer psychologischen Literaturdatenbank zeigt den Versuch, über die Verwendung von Zeichenketten eine bestimmte Gruppe von Dokumenten zu erfassen (bzw. auszuschließen), nämlich solche, in denen es um Untersuchungen mit Tieren geht. Für einen Leser oder eine Leserin ist das eine verhältnismäßig einfache Aufgabe. Sie setzt allerdings voraus, dass die Texte gelesen und zu einem gewissen Grad verstanden werden und dass allgemeines Wissen über Tiere und Experimente mit Tieren vorhanden ist, das genutzt werden kann, um die gelesenen Texte so weit wie möglich zu interpretieren. Denn selbst wenn Lesende die genannte Tierart und die Versuchsanordnung nicht kennen, werden sie im Allgemeinen in der Lage sein zu entscheiden, ob es sich um einen Artikel über Untersuchungen an Tieren handelt oder nicht.

Diese Möglichkeit, zusätzliches Wissen zu nutzen, um Anfragen zu beantworten, bietet ein boolesches Retrieval-System, das mit dem Vergleich von Zeichenketten arbeitet, zunächst nicht. Im obigen Beispiel wurde versucht, das auszugleichen, indem Bezeichner für Tiere, die häufig in psychologischen Experimenten verwendet werden, gesammelt wurden und damit quasi ein Konzept "Versuchstier" konstruiert wurde. Probleme, die sich dabei ergeben, können exemplarisch als Motivation für die im Folgenden behandelten Ansätze genommen werden.

In Zeile 6 aus Abbildung 13 wurde versucht, verschiedene Wortformen zusammenzufassen. Bei Cat, Dog etc. sollte das erreicht werden, indem durch die Trunkierung ein mögliches Plural-"S" mit erfasst werden sollte. Dabei wurden allerdings (vermutlich unbeabsichtigt) viele weitere Terme mit ausgewählt. Bei Mouse und Mice versagt das Trunkierungsverfahren, weil sich der Stamm des Worts beim Übergang zur Mehrzahl ändert. In den Zeilen 3, 4 und 5 wurde versucht, mit einer Systematik zu arbeiten, indem Oberbegriffe (Vertebrates, Invertebrates, Animal) verwendet wurden. Dabei zeigt sich, dass die Begriffe Vertebrates und Invertebrates zusammen seltener vorkommen als Animal. Ähnliches lässt sich auch für die Zeilen 5 und 6 beobachten: Obwohl der Begriff Animal ein Oberbegriff der in Zeile 6 aufgelisteten Tiere ist, ist die Zahl der Treffer in Zeile 5 wesentlich kleiner. (In beiden Fällen könnten die Unterschiede in der Anzahl der Treffer auch an den speziellen Formulierungen der Anfragen liegen, also z.B. daran, dass in den Zeilen 3 und 4 nur im kontrollierten Vokabular (CT = Controlled Terms) gesucht wurde, oder daran, dass in Zeile 6 durch die Trunkierungen neben den Tierbezeichnungen auch andere Wörter gefunden wurden. Wie weit diese Erklärungen zutreffen, lässt sich im Nachhinein nicht entscheiden.)

Insgesamt zeigt das Beispiel, dass sich das sprachliche und faktische Wissen, das Menschen die richtige Zuordnung beim Lesen erlaubt, nur schwer durch Regeln auf der Ebene von Zeichenketten ersetzen lässt, wenn es darum geht, Inhalte vergleichbar zu machen.

Es gibt verschiedene Ansätze, dieses Problem der Vergleichbarkeit von Inhalten durch geeignete Repräsentationen anzugehen. Grundsätzlich kann man zwei verschiedene Herangehensweisen unterscheiden:

Versuche, die natürliche Sprache so zu repräsentieren und zu verarbeiten, dass inhaltliche Ähnlichkeiten erkennbar werden;
Versuche, die zulässigen Mittel zur inhaltlichen Beschreibung so einzuschränken, dass sie Ähnlichkeiten abbilden.

Ansätze der ersten Art werden im folgenden Abschnitt behandelt. Die Abschnitte über Klassifikationen (1.3.3 ), Thesauren (1.3.4 ) und semantische Netze (1.3.5 ) behandeln Ansätze der zweiten Art.

1.3.2.1: Reduktion von Wörtern auf ihre Grundformen

1.3.2.2: Lexikografische Grundformenreduktion nach Kuhlen

Diese Form der Reduktion ist im Englischen verhältnismäßig erfolgreich, weil die Wörter sich in der Sprache wenig ändern, d.h. wenige Flexionsformen besitzen. Zudem gibt es wenig zusammengesetzte Wörter. Im Deutschen sieht das ganz anders aus. Hier lassen sich solche Regeln nicht erfolgreich konstruieren und anwenden. Deshalb muss auf lexikonbasierte Verfahren zurückgegriffen werden.

1.3.2.3: Lexikonbasierte Morphologie-Analyse

1.3.2.4: Auflösen von Mehrdeutigkeiten

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.2	Zeichenketten, Wörter und Konzepte
Abb. 13	Trunkierungen, die nicht nur Tiere ausschließen
1.3.2.1	Reduktion von Wörtern auf ihre Grundformen
Abb. 14	Schematische Darstellung der Verwendung von Grundformenreduktionsverfahren in einem textbasierten Information-Retrieval-System
1.3.2.2	Lexikografische Grundformenreduktion nach Kuhlen
Abb. 15	Die verschiedenen Reduktionsformen nach Kuhlen am Beispiel
Abb. 16	Einige der Regeln zur lexikografischen Grundformenreduktion nach Kuhlen
Abb. 17	Anwendungsbeispiel des Kuhlen-Algorithmus
1.3.2.3	Lexikonbasierte Morphologie-Analyse
Abb. 18	Flexionsanalyse nach Lezius
1.3.2.4	Auflösen von Mehrdeutigkeiten

kontrolliertes Vokabular, Vergleichbarkeit von Inhalten, computerlinguistischer Ansatz, Grundformenreduktion, Stammformenreduktion, Lemmatisierung, Stemming, invertierte Liste, lexikografische Grundform, formale Grundform, Stammform nach linguistischen Prinzipien, Verfugung, Morphologie-Analyse-System, Hochfrequenzwörterbuch, Flexionsanalyse, Kompositionsanalyse, Polysemie, Ambiguität, Synonymie

Ambiguität, computerlinguistischer Ansatz, Flexionsanalyse, formale Grundform, Grundformenreduktion, Hochfrequenzwörterbuch, invertierte Liste, Kompositionsanalyse, kontrolliertes Vokabular, Lemmatisierung, lexikografische Grundform, Morphologie-Analyse-System, Polysemie, Stammform nach linguistischen Prinzipien, Stammformenreduktion, Stemming, Synonymie, Verfugung, Vergleichbarkeit von Inhalten

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.