R. Ferber: Data Mining & Information Retrieval 1.2.13

1.3: Faktendatenbanken und -retrieval

Während die Dokumente in Literaturdatenbanken zwar in verschiedene Felder strukturiert sind, innerhalb vieler dieser Felder aber freien Text beliebiger Länge enthalten, sind die Einträge in Faktendatenbanken i. a. stark strukturiert. D. h. sie bestehen (logisch) aus Tupeln von Werten vorgegebener Typen. Abbildung 1.3 zeigt eine fiktive Beispieldatenbank. Faktendatenbanken werden heute i. A. mit relationalen Datenbankmanagementsystemen ( DBMS) verwaltet. Diese Systeme sorgen neben der Suche vor allem für die Konsistenz und Sicherheit der verwalteten Daten - insbesondere bei Änderungen - auch wenn sie von mehreren Nutzenden gleichzeitig bearbeitet werden. Dieser Aspekt wird von IR Systemen in der Regel nicht berücksichtigt und soll hier auch nicht näher betrachtet werden (vergl. z. B. Grossman & Frieder 1998 [->], Kap. 5).

Abb. 3: Beispiel-Datenbank

Die starke Strukturierung der Datensätze erleichtert den Zugriff auf die Einträge und das Arbeiten mit ihnen, da die Typisierung das Format vorgibt und wohldefinierte Vergleiche ermöglicht. Diese Stärke kommt vor allem zum Tragen, wenn exakte Anfragen gestellt werden, wie, um bei der Beispieldatenbank zu bleiben, "suche eine Wohnung mit einer Quadratmeterzahl zwischen 65 und 85 und einer Kaltmiete unter 1000 DM". Wenn die Anfragen allerdings vager werden, müssen die Werte häufig wieder interpretiert werden, wenn für Anfragende nützliche Ergebnisse erziehlt werden sollen. So kann man in der Anfrage: "Suche stadtnahe, kostengünstige Wohnung für zwei Personen" die einzelnen Vorgaben als Richtwerte auffassen und wird mit "E" Anfragende vielleicht glücklicher machen als mit "G". Dazu ist es aber notwendig, weiteres Wissen über das Gebiet, aus dem die Datensätze sind, zu haben und dieses auch in geeigneter Weise nutzen zu können.

Nicht nur durch einen vagen Informationsbedarf können Probleme entstehen. Es kann z. B. auch vorkommen, dass die gewünschte Information nicht in der Darstellung der Objekte in der Datenbank vorhanden ist, oder eventuell auch garnicht geeignet beschrieben werden kann. So könnte in einer Faktendatenbank einfach festzustellen sein, dass ein Buch mit 200 Seiten mehr Seiten hat als eines mit 150 (weil der Datentyp Intervallskalenniveau hat, oder anders gesagt, weil man für zwei verschiedene reelle Zahlen immer sagen kann, welche größer ist). Dagegen kann es erheblich schwieriger sein, zu erkennen, welches von zwei Büchern sich besser dazu eignet, ein bestimmtes Thema zu lernen (weil dafür keine Attribute angegeben sind, oder weil für die entsprechenden Attributwerte kein offensichtlicher Vergleichsoperator existiert). Andererseits wird in vielen Fällen die zweite Art von Information nützlicher sein, wenn es darum geht, sich zwischen zwei Büchern zu entscheiden.