中文XML压缩技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:panmandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着可扩展标记语言(Extensible Markup Language,简称XML)的广泛应用,互联网以及本地计算机上存在着大量的中文XML文档需要存储和交换。XML是一种元语言,可以用来描述其它数据,并且XML具有简单、灵活、跨平台等特性。但是XML格式冗余巨大,空间利用率低。为了提高空间利用率,提高数据交换的速度,给出了一种高压缩率中文XML文档的专用压缩解决方案COX(Chinese-Oriented XML Compressor)并实现了该系统。针对XML文档的特性,分析了XML文档中存在的结构和内容上的冗余信息,针对这些冗余给出了COX压缩技术。COX压缩中文XML文档的过程主要分为以下几个步骤:建立字典,查找字典,编码和整合压缩。建立字典分为三个步骤:对XML文档进行中文分词,获得分词及对应的词频信息;根据分词长度和词频信息过滤掉分词长度较短或(和)词频较低的分词;对获得的分词字典根据词频进行排序,高频词汇位于字典首部,低频词汇位于字典尾部,至此得到了编码字典。建立字典之后,再次扫描XML文档,根据一定的条件对数据进行分类,建立相应的容器,查找字典,对于字典项进行前缀编码,对其它类型的数据采用相应的编码方式进行编码;使用通用压缩算法LZMA对编码后的容器进行整合压缩。COX使用了中文分词,建立字典,划分容器等技术,其中建立字典是COX的关键技术。将COX和其它一些流行压缩软件进行对比实验,实验结果表明在相同的实验环境下对所选取的所有数据集COX的压缩率都超过了其它软件。COX提高了空间利用率,为中文XML文档压缩提供了良好的解决方案。
其他文献
本文介绍了一些经典的自动术语识别(ATR)算法,并对于它们的思想进行深入的分析和总结,并进行了相关的实验比较,对于其中的算法做了量化的评估。通过引入集成排序的思想来提高自
当前计算机技术和网络技术设计的飞速发展,网络规模的不断扩大,网络环境日趋复杂。异构、分布式的网络环境及复杂多样的网络元素,对软件的应用性提出了更高的要求与挑战。随着基于分布式对象计算的中间件技术的发展及网络向开放和分布式处理技术的转变,实现了不同网络系统之间的互联、互通、互操作性。Web service的出现无疑为分布式系统中各孤立的站点之间的信息能够相互通信,共享提供了一种接口,为解决日增长的互
数字多媒体技术的快速发展和互联网的广泛应用,丰富了我们的生活,加快了人们思想的沟通和交流的步伐。在获得便利的同时,人们也面临盗版活动日益猖獗的现实问题。如何有效的保护
虚拟齿轮测量中心是一个纯软件的系统,它是真实齿轮测量中心的机械结构、工件特征及测量过程等在虚拟环境的映射与仿真。虚拟齿轮测量中心在齿轮测量中心的软件编制与认证,以
近年来,随着计算机技术和微电子技术日新月异的发展,引起元器件高度集成化,计算机硬件大量超微型化,极大地促进了可穿戴计算技术的发展。可穿戴计算技术的核心是可穿戴计算机
随着移动设备的不断多样化和互联网技术的发展,适合不同尺寸的自动图像缩放方法日益重要。内容敏感的图像缩放方法能够保护图像中的重要性区域,是当前图像处理中的一个热点领
由于互联网上海量足球视频的存在,快节奏的生活使得用户目前最为关心的不是如何传输和播放所有比赛,而是关注自己感兴趣或精彩的视频片段。因此,如何分析足球视频内容以满足
RFID(Radio Frequency Identification)技术是物联网技术的一个重要组成部分,已经广泛应用于诸多领域。对物体进行定位是物联网的一项重要研究内容。近年来利用RFID技术定位标
随着昆虫学研究对象的不断深入和扩展,昆虫学领域产生了越来越多的图像数据,使得图像数据库开始急速膨胀,从而使研究人员难以方便、快速、准确地查询和检索到所需要的图像信
互联网兴起以来,多媒体、视频会议等组播应用越来越广泛,人们对于网络服务质量(QoS)需求急速攀升。但是作为网络传输核心的交换系统,虽然历经多次体系变革,仍然无法完全满足