R. Ferber: Data Mining & Information Retrieval 1.4.2

3.2: Zeichenketten, Wörter und Konzepte

Im vorigen Kapitel wurden Terme als Zeichenketten, die nach bestimmten Regeln ausgewählt werden, definiert. Dieser Ansatz bietet eine gewisse Flexibilität in Bezug auf verschiedene Formen eines Wortes. So kann durch Trunkierung am Wortende eine ganze Reihe von verschiedenen Formen eines Wortes zusammengefasst werden. Diese Möglichkeiten beschränken sich allerdings auf Wörter, deren Schreibweise eine solche Erfassung verschiedener Formen zulässt. In Abbildung 13 ist ein Beispiel angegeben, bei dem ein solcher Versuch mißlungen ist.

Abb. 13: Trunkierungen, die nicht nur Tiere ausschließen (aus Ferber, Wettler, Rapp 1995)

Dieses Beispiel aus einer psychologischen Literaturdatenbank zeigt den Versuch, über die Verwendung von Zeichenketten eine bestimmte Gruppe von Dokumenten zu erfassen (bzw. auszuschließen), nämlich solche, die sich mit Tierexperimenten beschäftigen. Für einen Leser bzw. eine Leserin ist das eine verhältnismäßig einfache Aufgabe. Sie setzt allerdings voraus, dass die Texte gelesen und zu einem gewissen Grad verstanden werden und dass allgemeines Wissen über Tiere und Experimente mit Tieren vorhanden ist, das genutzt werden kann, um die gelesenen Texte so weit wie möglich zu interpretieren. Denn selbst wenn Lesende die genannte Tierart und die Experimentalanordnung nicht kennen, werden sie i. a. in der Lage sein zu entscheiden, ob es sich um einen Artikel über Experimente mit Tieren handelt oder nicht. Diese Möglichkeit, zusätzliches Wissen zu nutzen, um Anfragen zu beantworten, bietet ein Boolesches Retrieval System, das mit dem Vergleich von Zeichenketten arbeitet, zunächst nicht. Im obigen Beispiel wurde versucht, das auszugleichen, indem Bezeichner für Tiere, die häufig in psychologischen Experimenten verwendet werden, gesammelt wurden und damit quasi ein Konzept "Versuchstier" konstruiert wurde. Probleme, die sich dabei ergeben, können exemplarisch als Motivation für die in diesem Abschnitt behandelten Ansätze genommen werden.

In Zeile 6 aus Abbildung _13_ wurde versucht, verschiedene Wortformen zusammenzufassen. Bei "Cat", "Dog" etc. sollte das erreicht werden, indem durch die Trunkierung ein mögliches Plural "s" mit erfasst werden sollte. Dabei wurden allerdings (vermutlich unbeabsichtigt) viele weitere Terme mit ausgewählt. Bei "Mouse" und "Mice" versagt das Trunkierungsverfahren, weil sich der Stamm des Wortes beim Übergang zur Mehrzahl ändert. In den Zeilen 3 und 4 wurden Oberbegriffe ("Vertebrates", "Invertebrates") verwendet, die aber offensichtlich in weniger Dokumenten auftreten als die Zeichenkette "Animal". Ähnliches lässt sich auch für die Zeilen 5 und 6 beobachten: Obwohl der Begriff "Animal" sicherlich ein Oberbegriff der in Zeile 6 aufgelisteten Tiere ist, ist die Zahl der Treffer in Zeile 5 wesentlich kleiner. (In beiden Fällen könnten die Unterschiede in der Anzahl der Treffer auch an den speziellen Formulierungen der Anfragen liegen, also z. B. daran, dass in den Zeilen 3 und 4 nur im kontrollierten Vokabular (CT = controlled Terms) gesucht wurde, oder daran, dass in Zeile 6 neben den Tieren durch die Trunkierungen auch andere Wörter gefunden wurden. Wie weit diese Erklärungen zutreffen, lässt sich im Nachhinein nicht entscheiden.)

Insgesamt zeigt das Beispiel, dass sich das sprachliche und faktische Wissen, das Menschen beim Lesen die richtige Zuordnung erlaubt, eben nur schwer durch Regeln auf der Ebene von Zeichenketten ersetzen lässt, wenn es darum geht, Inhalte vergleichbar zu machen.

Es gibt verschiedene Ansätze, dieses Problem der Vergleichbarkeit von Inhalten durch geeignete Repräsentation anzugehen. Grundsätzlich kann man zwei verschiedene Herangehensweisen unterscheiden:

Versuche, die natürliche Sprache so zu repräsentieren, dass "inhaltliche Ähnlichkeiten" erkennbar werden.
Versuche, die zulässigen Mittel zur inhaltlichen Beschreibung so einzuschränken, dass sie Ähnlichkeiten abbilden.

Wir werden uns zunächst mit Ansätzen der ersten Art beschäftigen.

3.2: Zeichenketten, Wörter und Konzepte

Abb. 13: Trunkierungen, die nicht nur Tiere ausschließen (aus Ferber, Wettler, Rapp 1995)

3.2.1: Wortorientierte Reduktionsverfahren