1.3.6.6: Das Retrieval-System SMART
Eines der ersten Retrieval-Systeme, in
denen das Vektorraummodell implementiert wurde, ist das
SMART-System, das über ca. 30 Jahre
an der Cornell University in der Arbeitsgruppe von Gerard Salton entwickelt wurde (Salton und
McGill, 1983 [->]
).
Dabei handelt es sich nicht nur um
ein einzelnes System, sondern um eine
Experimentierumgebung, in der eine Vielzahl von Verfahren und
Algorithmen getestet wurden. Es soll deshalb kurz in der Form von 1983
beschrieben werden. Neue Entwicklungen werden in Kapitel 3.4
dargestellt. Dabei zeigt sich, dass einige der Methoden von 1983
weiterentwickelt wurden, andere nicht. Die zusammenfassende Beschreibung
gibt auch ein Beispiel, wie die bisher beschriebenen Komponenten eines IR-Systems
zusammenspielen.
Salton und McGill (1983) unterscheiden die folgenden Komponenten:
- automatische Indexierung
- Berechnung von Dokument-Clustern und ihrer Zentroide
- automatische Query-Analyse und Relevance-Feedback-Komponente
- Dynamisierung des Dokumentenraums
Automatische Indexierung
Bei der automatischen Indexierung wird folgendermaßen vorgegangen:
- Aus dem Text werden die Wörter isoliert,
- Stoppwörter werden entfernt,
- die verbliebenen Wörter werden auf ihre Stammformen
reduziert. Dazu wird ein auf Ersetzungsregeln basierendes
Lemmatisierungsprogramm verwendet, aber andere Verfahren können auch eingesetzt
werden,
- gleiche Stämme werden zusammengefasst,
- die so gewonnenen Terme werden gewichtet bzw. ersetzt.
Gewichtungsstrategien
Bei der Gewichtung im letzten Punkt wird folgendermaßen vorgegangen:
- Terme mit mittlerer Häufigkeit werden direkt gewichtet,
z.B. mit der TF-IDF-Formel
| wi,k= |
| h(i,k)
|
 |
| d(k) |
|
- Sehr häufige Terme werden durch Termpaare ersetzt.
Dabei werden Paare mit allen anderen Termen gebildet, die in einem
vorgegebenen Abstand vorkommen. Doppelte Paare und Paare, die aus zwei identischen
Wörtern bestehen, werden entfernt. Die Gewichte für die Paare werden aus den
Häufigkeiten der einzelnen Paarelemente berechnet.
- Bei sehr seltenen Termen wird versucht, mit Hilfe eines Thesaurus zu
Oberbegriffen überzugehen oder sie mit Hilfe von Cluster-Verfahren durch eine ganze
Gruppe verwandter Terme zu ersetzen.
Berechnung von Dokument-Clustern und ihrer Zentroide
Die Dokumente werden in Cluster zusammengefasst um den Zugriff zu beschleunigen. Das geschieht mit
der Single-Pass-Methode.
Dieses Verfahren liefert Cluster ähnlicher Dokumente, die sich
überlappen können. Es wird vor allem verwendet, um den Zugriff auf Dokumente
zu beschleunigen.
Dazu wird eine Anfrage zunächst mit den Zentroiden
der Cluster verglichen. Ein Vergleich mit Dokumentvektoren findet dann nur noch in
dem Cluster statt, dessen Zentroid dem Anfragevektor am ähnlichsten
ist. Diese Vorgehensweise kann auch mehrstufig angewendet werden,
indem die Cluster einer Ebene wieder zu Clustern einer höheren
Ebene zusammengefasst werden. Damit das Verfahren effektiv ist, sollten die Cluster
ungefähr gleich groß sein.
Um das zu erreichen, kann man
- zu große Cluster durch ein neues Single-Pass-Verfahren
innerhalb des Cluster aufspalten,
- zu kleine Cluster mit dem ähnlichsten Cluster
vereinigen,
- bei zu großer Überschneidung zweier Cluster diese entweder
zusammenfassen oder Elemente aus der Schnittmenge aus einem der Cluster
entfernen.
Die Verwendung von Dokument-Clustern als Zugriffsverfahren scheint
zurzeit nicht weiterverfolgt zu werden.
Automatische Query-Analyse und Relevance-Feedback-Komponente
Die Terme der Anfrage werden wie bei der Indexierung in einen
Anfragevektor umgewandelt. Zur Optimierung wird das Relevance-Feedback-Verfahren nach
Rocchio verwendet. Ein besonderer Vorteil ist dabei, dass viele neue Terme aus
relevanten Dokumenten hinzukommen.
Dynamisierung des Dokumentenraums
Bei der Dynamisierung des Dokumentenraums können die
Dokumentvektoren aufgrund der Relevanzbeurteilungen im Relevance
Feedback langsam verändert werden. Dazu werden
- Terme, die in Anfragen auftreten, zu denen
das Dokument als relevant beurteilt wurde,
stärker gewichtet,
- Terme, die in Anfragen nicht auftreten, zu
denen das Dokument als relevant beurteilt wurde,
schwächer gewichtet,
- Terme, die in Anfragen auftreten, zu denen
das Dokument als nicht relevant beurteilt wurde,
schwächer gewichtet,
- Terme, die in Anfragen nicht auftreten, zu
denen das Dokument als nicht relevant beurteilt
wurde, stärker gewichtet.
Problematisch an diesem Ansatz ist, dass
mit der gleichen Anfrage zu verschiedenen Zeitpunkten unterschiedliche Ergebnisse gefunden werden können. Um das
zu vermeiden, kann man die Änderungen der Gewichte jeweils auf eine
Sitzung beschränken.
Einen ähnlichen Ansatz verwendet die in
Abschnitt 3.2.3
beschriebene Robertson-Sparck-Jones-Formel.
|