关系—XML双引擎数据库管理系统CoSQLRX中XML数据关键字索引的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:haohaojc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化发展速度的不断加快,XML技术发挥的作用越来越重要。目前,XML在多领域的数据表示、建模分析等方面都有广泛的应用。然而建立在多维度基础上的XML数据查询却比较复杂。人们通常习惯于使用简单的关键字进行查询,而不用了解复杂的查询语法和数据库模式。通过为XML数据库建立关键字索引,能够使数据库具备对XML数据关键字的高效查询功能,提高检索效率,拓展数据库的功能性。传统关系数据库已经发展得比较成熟,基于关系数据库的关键字查询能为人们提供方便灵活的检索服务,具有较大的市场。而XML作为数据表示的一个开放的标准,在信息领域也具有较强的活力。对关系与XML的统一管理以及实现对XML数据关键字检索就具有很重要的意义。本文在由北京大学、东北大学、上海实方软件有限公司共同开发的关系-XML双引擎数据库管理系统CoSQLRX基础之上,参考PostgreSQL数据库管理系统等相关技术,设计实现了利用XML关键字索引进行查询的功能。文中首先对CoSQLRX数据库的特点进行阐述,包括其体系结构及对XML的支持。在此基础上介绍了系统中XML数据关键字索引的设计。系统将结构索引作为XML数据关键字索引的基础,按节点切分文档,记录下编码等模式信息并抽取文本,再通过倒排索引建立起文本信息与文档结构的关系。考虑到文本相关信息对查询的影响,将单词的词频、词位都记录进索引项,这既能实现词组查询功能,又为结果重要度的计算提供了支持。在实现上,结构索引的搭建利用了TOAST技术,将结构索引本身作为大对象嵌入到文档中。倒排索引以entry树的形式存在,根节点能以链表、B+树等灵活的方式保存索引项。插入数据时,索引项数能随数据量的增多而作自由扩展。查询方面,本文分别考虑了单关键字与多关键字词组查询的各自特点,尤其对于词组查询,由于在索引设计中已经存入了词位,查询时即根据词位信息进行索引项的判别。最后,本文进行了实验测试与分析。文中采用XMark测试基准对系统中XML文档上的关键字索引进行了测试。实验结果表明,本文所设计的XML数据关键字索引在时间、空间的代价消耗上都比较稳定,索引有着良好的可扩展性。
其他文献
近几年来,随着生物信息学迅速发展,产生了大量的生物数据,对这些生物数据的研究和分析对于指导生命科学研究、揭示生命起源和进化的规律有着重大的意义。生物序列与生物序列
在过去的数十年中,关系数据库系统得到了极大的发展,而且被应用到人们生活中的各个角落。同时,人们对数据管理的需求,尤其是数据查找的需求不断增长。但是在这方面,关系数据
Web服务(Web Service)是一种基于XML的Web应用,是一种新的分布式计算模型。Web服务本身具有的一些很好的特性,如:易适应性、松耦合性、开放性、语言独立性、平台无关性等,使其
随着计算机技术的飞速发展和信息化的推进,全球的数据量正在以指数的趋势迅猛增长,而不断增长的数据集对数据查询提出很多新问题,对计算机内存的要求也越来越高,很多情况下,
移动Ad hoc是一种没有中心基础设施的情况下,由节点自组织形成的多跳无线网络,是近年来国际上的研究热点。目前针对移动Ad hoc网络的研究多集中在链路层、网络层和应用层,包
世界范围内,因为汽车数量快速增长加剧了交通事故的发生频率,引起人们对车辆安全的高度关注,而针对汽车辅助驾驶系统的研究越来越受到国内外的重视,由于道路环境下运动车辆的
博客是伴随Web2.0出现的一个典型应用,随着博主越来越多,博客页面的数量迅速增长。由于每个用户自身情况千差万别,面对Internet上指数增长的可用信息,人们越来越难找到自己想
随着多媒体技术和网络技术的迅速发展,视频作为一种主要的媒体类型已成为与人类工作生活密不可分的信息载体。庞大的视频数量和不断彭胀的用户群体急需要一种高效的组织视频
随着互联网的发展,商品的种类越来越多,商品的信息结构也越来越复杂,影响推荐系统性能的附加信息也随之增长。附加信息是指除评分矩阵以外的文本、属性、地理位置、时间等信
随着互联网信息的不断增长,博文成为Web2.0的重要应用,人们使用博文进行发表观点,书写生活等一系列活动。由于网络中蕴含着大量的信息,用户对博文搜索引擎的功能、搜索效果以