支持查询的XML数据压缩算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：ayin2

【摘要】

：

近年来XML已越来越被广泛的用于互联网上各种数据交换与数据表示,越来越多的公司与组织都通过XML来进行数据的交换与存储。但是XML有个致命的缺点:结构数据冗余。XML表示有效

【作者】

：

余国家

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2010年期

【关键词】

：

XML 压缩查询同构子树 n元组

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来XML已越来越被广泛的用于互联网上各种数据交换与数据表示,越来越多的公司与组织都通过XML来进行数据的交换与存储。但是XML有个致命的缺点:结构数据冗余。XML表示有效数据的同时,引入了大量的重复的半结构性元素标记数据。这些数据增加了宽带的传输负荷,同时增加了XML数据的存储成本,造成存储空间不必要的浪费。因此,压缩XML数据成为非常必要的工作。而在压缩数据上支持不全部解压即可快速查询的需求越来越大。现有的一些XML数据压缩算法的压缩率及查询效率不尽如人意。而商业的或研究型的XML数据库这方面的性能也较低,有很大的提升空间。为此,本文分析了现实中的XML数据的特性,特别是大数据量的XML数据的特性,据此提出一种新的压缩算法。该压缩算法不但能高效的压缩XML数据,也支持在压缩的数据上快速的实现用户的查询。首先,为了提高查询效率,在XML结构上提出了一种新的编码方案,本文称之为层次奇数编码法,并从理论上分析了该编码特有的性质。其次,用二进制串压缩XML文档中大量冗余的元素标记名和属性名这样的结构数据,并用Hash的方式实现以提高查询时的效率。然后,通过分析现实中XML文档数据的特性,特别是大数据量的XML文档数据特性,以及现实中用户对XML数据的常用的查询需求,本文定义并提出一种同构子树的概念。以此为基础,创新性的提出一种同构子树索引结构,合并同构子树中的节点,进一步压缩XML文档的冗余结构数据。同时,由于这种索引结构考虑到现实用户的查询需求与模式,相比传统的索引,在压缩数据上的查询效率更高效。并且,根据本文提出的层次奇数编码值的特性,为了进一步压缩数据,即压缩引入的节点编码值,提出了一种n元组合并算法。这样不但进一步压缩了数据,而且相对于不合并压缩层次奇数编码值,在合并的n元上采用n元组分裂等操作还能提高查询效率。再次,本文深入分析了XML数据上基于内容的常用的查询需求,以此为基础,提出一种将一般XML内容数据和常用短关键词查询域内容数据分离压缩的方案。此方式可以很好的降低用户的平均查询反应时间。再其次,分析、讨论了在同构子树索引及n元组分裂的算法上进行XPath简单路径查询、分支路径查询、带值的内容查询以及XQuery查询中常用到的XPath轴查询算法。同时,设计了一辅助的缓冲池,以进一步提高查询效率。最后,本文和现有的几个经典压缩查询算法做了实验对比。实验结果说明本文的算法具有较高的压缩率,并且平均查询时间明显比经典算法的更短。

其他文献

左心室断层轮廓线三角网格重构与化简

计算机断层扫描成像技术是医学成像领域的常用方法,心脏断层图像可视化是医学图像分析中的热点研究问题,旨在提供更加直观的人体心脏的三维信息。论文针对左心室形态和断层数

学位

心脏建模左心室轮廓线网格化简

基于隶属云模型和进化方向的进化算法研究

进化算法是一类通过模拟自然界中物种进化过程与机制来求解优化与搜索问题的一类自适应、自组织、自学习的人工智能技术。该算法基于这样的基本认识：“从简单到复杂、从低级到

学位

隶属云模型进化方向进化算法人工智能

多目标粒子群算法在Web服务组合中的应用研究

近年来Web Services作为一种新技术广受关注。Web Services中的接口定义语言WSDL和内容传输格式SOAP已经成为W3C的草案和建议标准。然而,在实际应用中,单个Web服务通常无法满

学位

Web服务组合服务质量多目标粒子群算法密集距离

关系数据库中基于知识库的Top-N关键词查询

随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式；人们希望能够在关系

学位

关键词查询索引元组树元组集网络排序策略

最大频繁项集和频繁基项集挖掘算法研究

数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个

学位

关联规则最大频繁项集位置向量布尔矩阵极大布尔关联规则频繁基项集

搜索引擎返回结果的自动摘要研究

目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限

学位

自动摘要查询扩展伪相关反馈句子权重计算

基于支持向量机的Word试题分析

随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果

学位

文本分类向量机WORD试卷DFANFA

基于微博挖掘的流行趋势预测

近年来,随着Web 2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大

学位

微博流行趋势预测特征融合相似度粒子群优化

基于时间序列的频繁模式挖掘研究与应用

伴随着互联网的不断发展,越来越多的用户每天在网络上进行着社交、网上购物、浏览新闻等不同类型的网络活动,同时网站后台记录了这些用户大量的交互信息、购买、点击、浏览等

学位

时间序列频繁模式时间序列符号化Map-Reduce

基于地面参数的遥感图像并行仿真算法研究

在未来国际上和我国的对地观测计划中,先进的多光谱、高光谱、多角度和微波遥感器层出不穷,它们将在人类认识地球甚至宇宙空间中扮演十分重要的角色。但是航天技术和遥感器技术的发展最终还是要落实在遥感应用上,因此以应用为导向的遥感器设计和应用模型的发展是真正体现航天遥感价值的关键。而对这些遥感器进行前期技术论证以及遥感应用模型开发的一个关键环节就是遥感图像的前期模拟,而在遥感图像模拟过程中,速度慢是制约其应

学位

图像模拟并行计算地表反射率计算大气辐射传输模拟

支持查询的XML数据压缩算法研究

与本文相关的学术论文