基于文件差异的XML文档压缩算法

来源 :复旦大学 | 被引量 : 0次 | 上传用户:lixufengz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络技术的飞速发展,XML已经成为了事实上的网络数据表示和传输的标准。从数据库研究的角度来看,XML的查询语言,XML的数据编码和索引结构一直是研究的重点。但是,随着现有XML文档数据量的增加,如何进行高效的存储和管理逐渐成为XML研究领域的研究热点。由于XML文档的自描述性,导致信息冗余,特别是在一些特殊的应用场合,如PDA,Smart phone等网络资源受限的系统中,网络性能受到较大影响。虽然目前很多研究者提出了通过对XML文档进行压缩,来缓解系统负担,但是大部分的压缩方法关注单个文档的压缩,而对文档集合压缩效果较差。本文比较并分析了已有的XML压缩算法在实际使用中的潜在问题,提出了一种新的基于文件差异的XML文档压缩算法:XDrill。XDrill通过对XML文档树进行划分来挖掘文档内部以及文档间的冗余信息,得到了良好的压缩效果。通过对XDrill系统的理论分析以及对实际数据集的测试表明,XDrill在压缩单个文档的性能上与XMill接近,对文档集合的压缩效果明显优于XMill压缩方法。同时,相比已有的XML压缩算法,XDrill支持增量式存储,并可以降低更新操作的系统开销。
其他文献
虚拟人体服装模特是一种面向服装制造工业的3D人体模型,一方面它要满足服装制造过程中量体裁衣的要求,另一方面还要满足用户的需求,构建出符合用户要求的人体模型。本文以这
近年来,P2P技术作为一种全新的网络应用,正主导着互联网的发展方向,与此同时P2P的管理问题也成为当前互联网络中最大的难题。因此,实现对P2P流量的有效识别及控制成为了当前
中文自动分词是实现搜索引擎信息检索的基础,长期以来一直是人们研究的重点,它广泛应用于中文信息处理的各个领域。传统的分词系统大都采用基于词典机制的分词算法,它们必须在分
大数据时代背景下,数据量的爆炸式增长,给数据存储带来巨大挑战。一方面,传统磁盘以及新型存储介质失效出错的概率随存储规模激增,导致设备级失效趋于常态化,但现有编码无法
缓冲区溢出漏洞是一个在各种类型操作系统和程序都广泛存在的一个安全漏洞,也是被黑客最多使用的攻击漏洞。目前大多数缓冲区溢出检测工具是基于源代码的,极大限制了工具的使
移动Ad hoc网络是指由若干带有无线收发信机的节点构成的一个无中心、多跳的和自组织的对等式通信网络。因为具有组网灵活、分布实施等特点,使它拥有了广阔的应用前景,一直成
P2P(Peer-to-Peer)网络目前已经成为新的热点,在现实中已经有了广泛的应用。其安全性越来越受到人们的重视。本文在对非对称算法(RSA),对称算法(DES)以及数字证书结构的深入
随着网络规模的增长,对当前的所有网络进行保护并防止恶意入侵的形势是严峻的。攻击者们可以利用网络的不同的主机的多种漏洞来达到他们的目的,例如得到目标网络的授权对服务进
随着计算机技术的不断进步,虚拟现实理论的完善,计算机图形图像处理技术的成熟,医学影像学获得了长足发展,其功能越来越多,应用领域也越来越广。虚拟内窥镜技术是基于这些技术和理论而逐步形成的一种新技术,该技术属于医学虚拟现实的范畴。本文主要对一种基于距离变换的方法进行研究,并将其应用于官腔路径提取中。不但能处理单分支结构的对象,还能处理多分支结构的对象。根据起点或已找到的中心路径上的当前点与终点的位置关
在Ad Hoc网络中,由于每个节点兼具主机和路由器的功能,从源节点到目的节点的路径通常会有多条,所以适合采用多路径路由。另一方面,多路径路由可以提高网络带宽,均衡资源利用率,延长