论文部分内容阅读
XML从1998年由W3C(World Wide Web Consortium)提出之后已得到广泛的关注,各行各业都在采用XML来描述本领域的信息,比如MathML、CML、VoiceML等,随之而来的问题是产生大量XML文档,应该如何管理这些XML文档就成为一个迫切需要解决的现实问题。XML引擎研究就是根据这个问题提出的研究课题。本文所做的主要工作有: (1) XML引擎原型设计。本文设计了一个XML引擎框架,研究了XML引擎与XML数据库、XML应用系统之间的关系,以及XML引擎存储系统、索引系统和查询系统的各种功能。存储系统为索引系统提供存储支持,为查询系统提供临时文件的存储,比如索引文件、索引使用的参数文件等;同时查询系统获取源数据时需要访问存储系统。索引系统分为内容索引和结构索引两部分。索引系统主要为查询系统服务,为查询系统实现全文查询、布尔查询、路径查询提供支撑;索引系统还提供一些接口,使得外部程序可以不经过查询系统也能访问索引系统。查询系统分为内容查询和结构查询两部分。查询系统遵守XPath语法,在实现结构查询功能的同时,也把XML文档看作一般的文本文件来处理,提供内容查询功能。 (2) XML索引技术研究。本文研究了对XML文档进行内容索引和结构索引的方法,尤其是内容索引和结构索引的有机结合机制。在内容索引技术中研究了三个问题,即变长记录存储问题,中文词、英文短语的索引问题,提高索引建立速度的问题。本文提出的结构索引技术采用了四个索引文件来完成对XML文档的内容索引和结构索引,研究了四个索引文件的建立方法。针对结构索引的建造,本文首先阐明了前序一后序节点标号法,然后提出了树邻接表的概念,并给出了把DOM树转换为树邻接表的办法;最后对树邻接表进行前序-后序遍历,得到每个节点的标号,并组装成结构索引文件。 (3) XML查询技术研究。本文研究了对XML文档进行内容查询和结构查询的办法,关键是研究了内容查询和结构查询的有机结合机制。本文研究了内容查询技术中的三个问题,即简单检索、字段检索和布尔检索。在研究结构查询技术时,本文提出了五种基本的路径表达式,即简单路径表达式、含序路径表达式、属性路径表达式、含值路径表达式和K C路径表达式,本文研究了这五种基本路径表达式的实现方式,通过分析这五种路径表达式的实现,笔者提出了四种针对结构信息的基本操作,即PC操作、AD操作、CO操作和OR操作。 在研究方法上,本文综合应用了文献调查方法、逻辑推理方法、归纳总结法和实证法。针对不同的研究内容,采用不同的研究方法,确保研究过程和研究结果的真实与可靠。