| ||||||||||||
1.3.2: Zeichenketten, Wörter und KonzepteIm vorigen Abschnitt wurden Terme als Zeichenketten definiert, die nach bestimmten Regeln ausgewählt werden. Dieser Ansatz bietet eine gewisse Flexibilität in Bezug auf verschiedene Formen eines Worts. So kann durch Trunkierung am Wortende eine ganze Reihe von verschiedenen Formen eines Worts zusammengefasst werden. Diese Möglichkeiten beschränken sich allerdings auf Wörter, deren Schreibweise eine solche Erfassung verschiedener Formen zulässt. In Abbildung 13 ist ein Beispiel angegeben, bei dem ein solcher Versuch misslungen ist. Abbildung 13: Trunkierungen, die nicht nur Tiere ausschließenDieses Beispiel aus einer psychologischen Literaturdatenbank zeigt den Versuch, über die Verwendung von Zeichenketten eine bestimmte Gruppe von Dokumenten zu erfassen (bzw. auszuschließen), nämlich solche, in denen es um Untersuchungen mit Tieren geht. Für einen Leser oder eine Leserin ist das eine verhältnismäßig einfache Aufgabe. Sie setzt allerdings voraus, dass die Texte gelesen und zu einem gewissen Grad verstanden werden und dass allgemeines Wissen über Tiere und Experimente mit Tieren vorhanden ist, das genutzt werden kann, um die gelesenen Texte so weit wie möglich zu interpretieren. Denn selbst wenn Lesende die genannte Tierart und die Versuchsanordnung nicht kennen, werden sie im Allgemeinen in der Lage sein zu entscheiden, ob es sich um einen Artikel über Untersuchungen an Tieren handelt oder nicht. Diese Möglichkeit, zusätzliches Wissen zu nutzen, um Anfragen zu beantworten, bietet ein boolesches Retrieval-System, das mit dem Vergleich von Zeichenketten arbeitet, zunächst nicht. Im obigen Beispiel wurde versucht, das auszugleichen, indem Bezeichner für Tiere, die häufig in psychologischen Experimenten verwendet werden, gesammelt wurden und damit quasi ein Konzept "Versuchstier" konstruiert wurde. Probleme, die sich dabei ergeben, können exemplarisch als Motivation für die im Folgenden behandelten Ansätze genommen werden. In Zeile 6 aus Abbildung 13 wurde versucht, verschiedene Wortformen zusammenzufassen. Bei Cat, Dog etc. sollte das erreicht werden, indem durch die Trunkierung ein mögliches Plural-"S" mit erfasst werden sollte. Dabei wurden allerdings (vermutlich unbeabsichtigt) viele weitere Terme mit ausgewählt. Bei Mouse und Mice versagt das Trunkierungsverfahren, weil sich der Stamm des Worts beim Übergang zur Mehrzahl ändert. In den Zeilen 3, 4 und 5 wurde versucht, mit einer Systematik zu arbeiten, indem Oberbegriffe (Vertebrates, Invertebrates, Animal) verwendet wurden. Dabei zeigt sich, dass die Begriffe Vertebrates und Invertebrates zusammen seltener vorkommen als Animal. Ähnliches lässt sich auch für die Zeilen 5 und 6 beobachten: Obwohl der Begriff Animal ein Oberbegriff der in Zeile 6 aufgelisteten Tiere ist, ist die Zahl der Treffer in Zeile 5 wesentlich kleiner. (In beiden Fällen könnten die Unterschiede in der Anzahl der Treffer auch an den speziellen Formulierungen der Anfragen liegen, also z.B. daran, dass in den Zeilen 3 und 4 nur im kontrollierten Vokabular (CT = Controlled Terms) gesucht wurde, oder daran, dass in Zeile 6 durch die Trunkierungen neben den Tierbezeichnungen auch andere Wörter gefunden wurden. Wie weit diese Erklärungen zutreffen, lässt sich im Nachhinein nicht entscheiden.) Insgesamt zeigt das Beispiel, dass sich das sprachliche und faktische Wissen, das Menschen die richtige Zuordnung beim Lesen erlaubt, nur schwer durch Regeln auf der Ebene von Zeichenketten ersetzen lässt, wenn es darum geht, Inhalte vergleichbar zu machen. Es gibt verschiedene Ansätze, dieses Problem der Vergleichbarkeit von Inhalten durch geeignete Repräsentationen anzugehen. Grundsätzlich kann man zwei verschiedene Herangehensweisen unterscheiden:
1.3.2.1: Reduktion von Wörtern auf ihre Grundformen1.3.2.2: Lexikografische Grundformenreduktion nach KuhlenDiese Form der Reduktion ist im Englischen verhältnismäßig erfolgreich, weil die Wörter sich in der Sprache wenig ändern, d.h. wenige Flexionsformen besitzen. Zudem gibt es wenig zusammengesetzte Wörter. Im Deutschen sieht das ganz anders aus. Hier lassen sich solche Regeln nicht erfolgreich konstruieren und anwenden. Deshalb muss auf lexikonbasierte Verfahren zurückgegriffen werden. 1.3.2.3: Lexikonbasierte Morphologie-Analyse1.3.2.4: Auflösen von Mehrdeutigkeiten | ||||||||||||
| ||||||||||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.