可查询的半结构化数据压缩方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：c224224224

【摘要】

：

近年来，随着Internet的迅猛发展，XML(ExtensibleMarkupLanguage)已经成为数据交换和表示的主要标准。由于XML具有良好的可扩展性和跨平台性，越来越多的信息以XML文件的形式进行

【作者】

：

邱志云

【机构】

：

重庆邮电大学

【出处】

：

重庆邮电大学

【发表日期】

：

2006年期

【关键词】

：

可扩展标记语言数据压缩查询处理哈夫曼数据冗余

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着Internet的迅猛发展，XML(ExtensibleMarkupLanguage)已经成为数据交换和表示的主要标准。由于XML具有良好的可扩展性和跨平台性，越来越多的信息以XML文件的形式进行交换和存储。XML数据的一个缺点是存在较大的数据冗余，会造成存储空间的浪费、查询效率的降低。因此对XML数据进行有效压缩和查询成为一个重要的研究领域。目前已有的XML数据压缩技术例如XMILL运用结构和内容分离的思想能够取得两倍于传统的压缩技术GZIP的压缩效率，但是它们并不支持压缩数据流之上的查询处理。如果希望查询数据，则只能解压缩全部数据。但是频繁的解压缩会造成系统资源大量的损耗，因此本文提出了一种基于XML数据流的压缩技术XQC(XMLQueryCompression)，实时完成XML数据流的压缩和解压缩，同时在压缩的数据上应用XML的查询技术XPath获得所需信息。该方法以私有的元素和属性值为压缩粒度，在哈夫曼编码的基础上采用了一种与上下文无关的压缩模式来保持原XML文件的结构。点查询(指精确查询)直接在压缩文档上执行，解压缩的操作被限制在最终返回给用户的查询结果部分；范围查询中需要对查询谓词中的元素和属性值进行解压，而不需要对整个文档解压。本文分析了当前XML数据压缩与查询的研究现状和目前已有XML数据压缩方法的不足，并指出了研究主题及目标。对数据压缩的基本原理，XML的数据模型，XML的数据压缩，和XML的查询语言进行介绍。重点阐述了XQC系统的重要组成结构和主要功能。实验表明在XML数据流环境中，相比较于XMILL技术，由于XQC采取了同构压缩技术和两次SAX文件扫描，因此在数据压缩率和压缩时间的性能稍低。但是压缩性能的降低换来的是在压缩数据之上查询的执行效率的较大提高。

其他文献

基于RDBMS的XML文档检索技术研究与实现

因特网诞生以来，网络信息资源急剧增长，如何利用数据检索技术有效的发现和使用资源成为急待解决的问题。XML具备许多HTML没有的优点，其实现了内容、结构和表现三者的分离，因此适

学位

XML检索索引存储

用户使用软件系统行为模式挖掘算法研究

随着计算机软件的飞速发展，设计可用性高的软件系统是很必要的。在软件系统的使用过程中，对其进行可用性测试与改进能有效地提高软件的功能。序列模式挖掘已经在许多领域得

学位

事件序列序列模式用户行为模式挖掘软件可用性

PKI在GK-Star中的应用

信息系统安全是目前广泛研究的重要课题之一。对于协同办公系统来说，保障信息系统的安全性和可靠性更是实现高效率协同办公的前提。因此，研究协同办公系统安全机制中的关键技术

学位

公开密钥基础设施数字证书证书撤消列表认证中心注册中心

基于COM技术与JNI技术的通用数据交换技术的研究

近几年,随着Internet/Intranet等信息技术的飞速发展以及企业对自身信息化建设重视程度的不断提高,基于Web技术的面向企业级应用的各种电子商务、电子政务和办公自动化系统的

学位

COMJNIWeb应用JavaJ2EE框架模型

基于J2EE和XML的海洋数据集成系统原型设计与实现

海洋对整个地球环境和人类生存的重要性不言而喻,百余年的短暂观测历史和高昂的观测成本,使得海洋数据资料异常珍贵。但是,海洋数据源具有分布性、异构性、复杂性、数据量大

学位

J2EEXMLMarineXML海洋异构数据集成UML

本征图像分解方法与应用研究

本文针对本征图像分解问题,首先提出了基于分层分解结构,利用零范数稀疏表示建立非局部像素间反射率上关联关系的单幅图像本征图像分解方法。本方法能够以无监督的方式构建非

学位

本征图像分解零范数稀疏表示分层分解结构协同本征图像分解超像素闭形式的解

CIMS环境下六西格玛管理法探讨

计算机集成制造系统(Computer Integrated Manufacture System——CIMS)自20世纪70年代提出以来,一直受到了世界各国的普遍重视和关注。而质量控制和管理则是企业CIMS应用的

学位

计算机集成制造系统计算机辅助质量保证六西格玛

基于粗糙集的WEB文本挖掘关键技术研究

信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一，基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在己成为一个巨大的信息源，如何让互联网信息

学位

文本挖掘特征提取文本分类粗糙集属性约简人工智能

基于粗糙集数据分析的商业辅助决策系统的应用研究

随着商业零售业的高速发展,商业上迫切需要在原有业务系统的基础上有一套比较通用的商业辅助决策支持系统。使用粗糙集的数据分析工具,比较适合大规模的商业数据库知识发现的

学位

粗糙集数据分析商业辅助决策支持rosetta计算核心

一个校园网系统结构及安全策略

二十一世纪是人类全面进入信息化社会的世纪，是全球信息化、网络化的时代，计算机网络在给人们带来巨大的便利的同时，网络本身的开放性和共享性等特点也使得随之而来的网络安全问

学位

校园网络系统网络安全安全防御体系结构公钥基础设施公钥密码

可查询的半结构化数据压缩方法研究

与本文相关的学术论文