Content Analysis Standards development Heterogeneity MEtadata REtrieval Newsletters
   
Latest Newsletter
12.08.2005
XPath & XQuery
XPath & XQuery

Newsletter Discussion


Abstract

XIRQL (An XML Query Language Based on Information Retrieval Concepts) incorporates concepts like passage retrieval, precision search, precision (combination) plain text search, weighting, relevanceoriented search, data types and vague predicate, structural relativism. The HyREX (Hypermedia Retrieval Engine for XML) server accepts XIRQL queries and returns pointers to the retrieved elements.

XIRQL

Eine XML-Abfrage Sprache, die auf Informationswiedergewinnung (Retrieval) basiert

XML wird immer mehr als ein Standarddokumentenformat anerkannt. XML trennt logisches Markup von seinem Layout. Diese Eigenschaft macht XML einzigartig und bietet eine große Bandbreite von Möglichkeiten zur Informationsrückgewinnung, wie im folgenden beschrieben.

Passage retrieval: Die logische Struktur von XML erleichtert die Wiedergewinnung von relevanten Teilen eines Dokumentes auf eine Abfrage hin, in dieser Weise überwindet es die Einschränkungen des Passage-Retrievals in IR.

Präzisionssuche: Basierend auf dem Markup spezifischer Elemente können Suchen mit hohem Präzisionsgrad durchgeführt werden, welche nach Inhalten spezifischer Elemente suchen (z.B. die Differenzierung zwischen Absender und Empfänger eines Briefes).

Präzisions-Plaintext-Suche (kombiniert): Das Konzept gemischter Inhalte erlaubt die Kombination von Suchen mit hohem Präzisionsgrad mit Plaintextsuchen. Ein Element besitzt gemischte Inhalte, wenn sowohl Plaintext als auch andere Elemente darin enthalten sind. Daher ist es möglich, bestimmte Objekte zu markieren. Zum Beispiel können in einer Kunstenzyklopädie die Namen der Künstler, die Orte, an denen sie gearbeitet haben oder auch die Titel ihrer Werke markiert werden (auf diese Weise wird eine Suche nach Picassos Bildern von Stierkämpfern ermöglicht, wobei die Passages vermieden werden, welche Picassos häufige Besuche von Stierkämpfen zum Inhalt haben).

Mit diesen Anforderungen befassen sich XQL, Xquery und Xpath. Sie sind ein guter Ausgangspunkt für IR und XML Dokumente. Es sollten jedoch folgende Eigenschaften hinzugefügt werden:

Bewertung: IR Forschung hat gezeigt, dass für eine effektive Wiedergewinnung in Textdokumenten sowohl Dokument-Begriffs-Bewertung als auch Abfrage-Begriffs-Bewertung notwendig sind. Daher sollten Vergleiche in XQL, die sich auf den Text von Elementen beziehen, Index-Begriffs-Wertigkeit mit berücksichtigen. Ausserdem sollte eine Abfrage-Begriffs-Bewertung möglich sein, indem man einen gewichteten Summenoperator einführt (z.B. 0.6 · "XML" + 0.4 · "retrieval"). Diese Wertigkeiten sollten zur Berechnung eines Gesamtwertes des Retrieval Status der wiedergewonnenen Elemente genutzt werden, und so zu einer abgestuften Liste dieser Elemente führen.

Relevanzbezogene Suche: Die Abfragesprache sollte auch herkömmliche IR Abfrage unterstützen, in denen nur der gesuchte Inhalt spezifiziert wird aber nicht die Art der Elemente, die aufgerufen werden sollen. In diesem Fall sollte das IR System die relevantesten Elemente aufrufen.

Datentypen und unbestimmte Prädikate: Die übliche IR-Methode zur Bewertung unterstützt unbestimmte Suchen nur in Plaintext-Dokumenten. XML hingegen erlaubt eine feinkörnige Markierung von Elementen und daher sollte die Möglichkeit bestehen, spezielle Suchprädikate für unterschiedliche Elementtypen zu benutzen. Zum Beispiel sollte für ein Element, welches Personennamen enthält, eine Ähnlichkeitssuche nach Eigennamen angeboten werden; in technischen Dokumenten sollten Elemente mit Messwerten mit Hilfe von den Vergleichsprädikaten > and <, die Gleitpunktzahlen anwenden, gesucht werden. Dadurch sollte die Möglichkeit bestehen, Elemente verschiedener Datentypen zu haben, wobei jeder Datentyp eine Reihe spezifischer Suchprädikate besitzt. Um die intrinsische Unbestimmtheit von IR zu unterstützen, sollten die meisten dieser Prädikate ebenfalls unbestimmt sein (z.B. eine Suche nach Messungen, die bei ca. 20 Grad genommen wurden).

Struktureller Relativismus: XQL ist zwar sehr eng mit der XML Syntax verbunden, es ist jedoch möglich, syntaktisch unterschiedliche XML Varianten zu benutzen, um die gleiche Wortbedeutung (Sinngehalt) auszudrücken. Zum Beispiel kann eine bestimmte Information als XML Attribut oder als XML Element kodiert werden. Ein weiteres Beispiel wäre, dass ein User in einem Dokument nach dem Wert eines bestimmten Datentyps suchen möchte (z.B. nach einem Personennamen), ohne sich um das Element selbst kümmern zu müssen. Daher sollten entsprechende Generalisierungen in die Abfragesprache integriert werden.

XIRQL bezieht alle oben aufgeführten Konzepte mit ein. Basierend auf den in diesem Beitrag beschriebenen Konzepten wurde eine Retrievalmaschine (ein Retrievalsystem) namens HyREX (Hypermedia Retrieval Engine for XML) implementiert. Um eine Dokumentenbasis mit HyREX zu erstellen, müssen zunächst die XML-Schemabeschreibungen (zusammen mit den HyREX-spezifischen Applikationsinformationen) für die Dokumente genau benannt werden. Nachdem das System das Dokumentenbasis-Schema erhalten hat, akzeptiert es XML-Dokumente, katalogisiert diese und erstellt seine eigenen Verzeichnisstrukturen. Derzeit werden für diesen Zweck B-Bäume und Varianten invertierter Listen verwendet. Diesem Schritt folgend akzeptiert der HyREX-Server XIRQL-Abfragen und gibt Zeiger in die wiedergewonnenen Elemente zurück. Um HyREX als ein eigenständiges Retrievalsystem zu nutzen, wurde ein einfaches (Webbasierendes) User-Interface (HyGate) entwickelt, welches Abfrageformulierungen in XIRQL oder in applikationsspezifischer Form annimmt, diese Abfragen an den Server weiterleitet und Ergebnislisten oder auch einzelne Ergebniselemente in Empfang nimmt. Um den Output in HyGate darzustellen, muss der Dokumentenbasisadministrator adäquate XSLT-Formatvorlagen sowohl für die Übersichtsseite(n) der Ergebnisse als auch für einzelne Ergebniselemente festlegen. HyREX ist als erweiterbare IR Architektur entworfen worden. Für bestimmte Applikationen können neue Datentypen zu dem System hinzugefügt werden, möglicherweise auch zusammen mit neuen Verzeichnisstrukturen.

Es müssen noch einige offenen Fragen bei der Verwendung von XIRQL in Betracht gezogen werden. Auf Systemebene gibt es ein Problem bei den geeigneten Zugriffmethoden und den Prozessstrategien der Abfragen. In Bezug auf das User-Interface ist es nicht klar, in welcher Form Endbenutzer ihre Abfrageb formulieren sollten. Auch die Darstellung der Ergebnisse muss noch geklärt werden, da einige der Ergebnisse zu ein und demselben Dokument gehören könnten.

Reference: Norbert Fuhr, Kai Großjohann(2002)

XIRQL: An XML Query Language Based on Information Retrieval Concepts

   
Impressum
Cashmere - int RSS Feed
 
Valid XHTML 1.0!
Newsletters
Webmaster