摘要:针对目前XML数据流处理中通常采用的查询语言XPath和XQuery均不支持空间运算,无法应用到空间数据流处理技术中的问题,设计了一种通过扩展现有商业化XQuery引擎功能基础上的空间数据流检索方法。
关键词:可扩展标记语言数据流; XQuery;空间数据
随着Web应用中数据交换越来越频繁,产生了大量不间断的数据流。由于XML已经成为Internet环境中数据表示和交换的标准,数据流大量以XML格式表现。如何从不间断的XML数据流中匹配、抽取和转换部分数据流以满足商务应用的需求成为当前国际数据库领域的一个研究热点。目前针对XML数据流的处理研究有很多,但研究的对象均是普遍意义上的XML数据流,对于以XML格式表现的空间信息及查询中需要空间关系运算的数据流处理研究较少。研究如何在目前的XML数据流处理中支持空间运算有着重要意义。
1存在的问题
在目前针对XML数据流的研究中,其基本思想都是将用XPath表示的查询表达式转换为状态树型自动机,处理程序以流的方式接收并处理XML 文档,看其满足哪一个状态节点的要求以触发查询匹配操作。如果满足所有状态节点的要求,则向用户返回相关的文档或结果[1]。由于XPath表达复杂查询的局限性,W3C制定了专门针对XML的查询语言规范XQuery。XQuery 语言的核心是XPath 和FLWOR(for、let、where、order by和return) 表达式,复杂的XQuery查询语句很难用合适的状态机来表达。将XQuery直接改造成XML数据流的查询语言也引出了大量研究[2~5]。目前标准的XPath和XQuery规范均不支持空间数据类型及空间运算,且空间分析功能算法复杂。通过这些规范自身的数据类型定义和基本函数库来实现复杂空间数据类型以及空间分析功能的扩展很困难,使得这些研究很难应用到包含空间运算的数据流查询中。要在XML数据流查询中支持空间运算,需要先扩展XQuery规范以支持空间数据操作函数。自定义实现支持空间运算的XQuery引擎是理想的方法。文献[6,7]中已提出了直接扩展XQuery以支持空间功能的方法。但自定义实现XQuery引擎需要完整的词法分析、语法分析、查询规范化以及翻译执行等,使得这些方法均停留在理论阶段,很难实际应用。
针对这些问题,本文设计了一种在商业化引擎基础上扩展XQuery空间功能的方法,然后以事件流处理方式接收XML文档以实现空间数据流查询的方法。
2XQuery引擎空间功能的扩展
扩展XQuery引擎以支持空间运算,除了自定义实现支持空间运算的XQuery引擎方法外,还可以利用现有的XQuery引擎进行扩展。目前的商业化XQuery引擎均提供使用外部函数的功能扩展方法,如目前知名的商业化XQuery引擎Saxon提供的功能扩展机制可以允许在XQuery查询语句中调用Java或?.NET方法作为外部函数。其使用方法简单,只需要在XQuery查询语句中声明外部函数所在的名称空间就可以调用外部方法。这为XQuery引擎实现包括空间分析的查询提供了便捷的途径。
2.1空间数据类型的表达方法
采取调用外部方法来扩展XQuery引擎的功能,不可避免地会产生空间数据作为参数传递的问题。以采用Java语言实现扩展方法为例。虽然容易用Java对象表达各种空间数据类型,但由于XQuery引擎规范本身不支持直接以Java对象表达的空间数据类型,为了使XQuery语句中支持空间数据类型并能够使空间数据在Java类和XQuery引擎中传递,需要找到一种合适的空间数据表达方法。
GML是一个用XML schema描述的XML语法,用来进行空间和非空间的地理信息建模、传输和存储。GML已成为Web应用中所接受并容易理解的一种空间信息的交换格式。由于GML文档本身也是一个XML文档,可以用DOM对象document来表达,在Saxon的XQuery实现中能够支持DOM对象的传递,采用GML表达空间数据以支持空间数据在XQuery引擎与外部Java类之间的传递成为自然的选择。将GML在XQuery引擎与外部方法之间进行传递,需要引入GML的schema描述。在GML规范中,feature.xsd定义了抽象地理特征模型,geometry.xsd定义了具体的几何形状信息,提供了点(point)、线(line)、多边形(polygon)、点集(multipoint)、线集(multiline)和多边形集(multipolygon)等基本几何图形以及复合类型(complex type)的几何图形。在本方法中只用到了空间数据类型的几何定义,所以引入geometry.xsd即可。在XQuery语句中定义如下:
import schema namespace GML="http://schemas.opengis. net/gml/"
at" geometry.xsd";
引入GML的schema后,可以将GML进行描述的空间变量定义为schema限制的element变量作为参数进行传递,定义如下:
Let?$p=doc('test.xml')/schema-element(GML:linestring)
2.2空间功能的扩展
定义了空间数据的表达方式后,对空间运算功能的实现在外部方法中进行。参照文献[6]中定义的空间方法,本文定义了SPATIAL类封装,实现了部分空间方法。由于Saxon的XQuery 实现中,支持对Java类的静态方法调用以及实例化对象方法调用,但对于需要实例化对象的方法调用相对复杂。为了方便调用,所有空间方法均定义为SPATIAL类的静态成员方法。定义如下:
public class SPATIAL{
public static boolean WithIn(Document a, Document b){…}
public static boolean Toughes(Document a, Document b){…}
public static boolean Crosses(Document a, Document b){…}
……}
实现了上述定义空间方法后,通过该类就可以扩展Saxon的XQuery引擎。扩展方法很简单,只需在XQuery语句中声明该空间类的名称空间,在查询语句中需要空间运算的地方调用该类的各种方法即可。比如要使用空间包含的方法,先声明名称空间:declare namespace SPATIAL=“java:myclass.SPATIAL”;然后只需在调用方法前加入名称空间即可,如SPATIAL:Disjoin(…)。
另外需要注意的是,如果扩展的方法返回值不是简单数据类型则需要进一步处理。本文方法只是返回空间的包含相交等关系是否为真,是简单的布尔类型,不需要进一步处理。
3基于扩展引擎的空间数据流查询方法
扩展后的XQuery引擎可以处理带有空间信息的XML文档。但由于目前的XQuery引擎通常被设计来处理在内存中装配好的源XML文档,对于动态的数据流而言无法直接处理。为了能够对空间数据流进行处理,还需要借助SAX(simple API for XML)之类基于事件的XML解析程序辅助处理,以避免在采取操作之前需要存储文档的所有内容。
本文原文
SAX是事件驱动的XML处理器,允许正在读取XML文档时处理该文档。文档的读入过程也就是SAX的解析过程。其触发的事件主要包括:startDocument表示文档开始;endDocument表示文档结束; startElement表示元素开始;endElement表示元素结束;characters表示字符数据。将SAX与Saxon组合处理以XML格式表达空间数据流时,需要在相应的事件处理程序中调用XQuery查询语句。以一简单的物流监控为例,监控中心希望监控车辆在某指定时段内的指定区域的行驶是否符合预设路线。假设车辆每隔5 min将该时段内的行驶轨迹及状态信息以XML文档格式形成不间断的数据流发送给监控中心。其数据格式DTD定义如下:
〈xsd: complexType name="DTStateHistory"〉
〈xsd:element name=ID type="xsd:Integer"〉
〈xsd:sequence〉
?〈xsd:element name="StateUnit" type="DTstateUnit"minOccurs=
"1" maxOccurs="unbounded"/〉
〈/ xsd:sequence〉
〈/xsd complexType〉
〈xsd: complexType name="DTStateUnit"〉
〈xsd:elementname="Time" type="xsd:Date" /〉
〈xsd:element name="Position" type="GML:Point" /〉
…(其他必要属性信息)
〈/xsd complexType〉
用SAX和Saxon组合处理该数据流,当数据流不断到达时,SAX处理程序监听数据流并触发相应的事件。在元素DTStateHistory的endElement事件到达时,将该段数据流转换为XML文档存入内存,以DOM数据类型表示作为Saxon引擎的数据源,由Saxon引擎执行预先设定的查询语句。查询的XQuery语句如下:
declare namespace SPATIAL="java:myclass.SPATIAL"
declare variable ?$Route as GML: MultiLineString external
for ?$StateUnit in datasource("cachedatastream")/DTStateHistory//StateUnit
let ?$p=?$StateUnit/schema-element(GML:point)
where fn:timeWithin(?$StateUnit/Time, Duration) and SPATIAL:Disjoin(?$p, ?$Route)
return 〈alerttime〉{?$StateUnit/Time}〈/alerttime〉
〈alertPosition〉{?$p}〈/alertPosition〉
该查询语句检索存放在缓存中的XML文档,并将位置信息封装到一个element作为参数与设定的路径进行匹配。匹配工作由外部的SPATIAL类的Disjoin方法完成。如果该点不在预订路线上则返回该点的时间和位置信息到新的XML文档。随着事件的不断触发,程序不断缓存数据并调用该语句进行处理,实现对数据流的处理。
4结束语
本文研究了一种处理XML空间数据流的方法。该方法通过先扩展XQuery引擎的空间运算功能,然后结合XML流式处理方法对空间数据流进行处理,为空间数据流的查询和检索提供了一种简便的途径。在今后的工作中将扩展数据关联分析及趋势分析等数据挖掘等功能,结合XML数据流挖掘技术的研究,研究基于XQuery的空间数据流挖掘方法。
[10]RUSSELL G. TypEx:a type based approach to XML stream querying[C]//Proc of International Workshop on the Web and Databases (WebDB).UK:ACM SIGMOD,2003:55-60.
[11]于荔,鲍培明,张书亮.GML空间数据的对象化存储研究[J].南京师范大学学报:工程技术版,2006:6(1):67-71.
[12]兰小机,闾国年,刘德儿,等.基于XQuery的GML查询语言研究[J].测绘科学,2005,30(6):99-102.