海量数据并行压缩算法研究

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:xh287315717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于计算机技术的广泛应用及生产技术的飞速进步,计算机同各类生产活动结合得越紧密,在某些数据密集型的生产部门,处理生产数据往往需要很大的计算量,与之对应的数据存储空间的需求也是很大的。这篇论文针对实际数据处理中产生的海量数据的存储问题作了深入的研究,提出应用并行处理方法对海量数据进行压缩存储,以期望能获得较快的压缩速度,并节省数据的存储空间。 海量数据的压缩存储涉及到两种技术:一是数据压缩技术,本文采用自适应算术编码技术,用于解决海量数据存储的空间占用问题,另一种是并行编程技术,用于解决海量数据压缩的速度问题。该文探索如何把这两方面结合起来,使海量数据的压缩存储能从理论走向实践。 自适应算术编码技术是在Huffman编码的基础上发展起来的一种编码方法,它改进了Huffman编码把码字分配给每个符号的缺点,算术编码把一个编码分配给整个输入流,这种编码方法使码长很接近于输入流的熵值。它是一种成熟的编码方案,在这个算法的基础上已经发展了多种编码算法。因此,在我的论文中我选择了自适应算术编码方案,原因是这种编码方案在对文本文件编码时有独特的优势。 并行编程技术是为了适应大型计算任务而发展起来的一种基于并行运算环境的编程技术,有关这方面的技术当前正在蓬勃发展,国内也建立不少关于并行计算的研究小组。在我的实现方案中,我利用实验室的联网计算机组成一个简易的机群系统,模拟实现了并行压缩解决方案。我在实现方案中运用了当前非常流行的MPI(消息传递接口)标准,MPI标准是与C和Fortran语言绑定的,在C编程环境中就可直接对其库函数加以调用,所以在编制并行程序的时候非常的方便。 在我的论文中,针对具体的应用情况,以及我对LandMark解释软件所产生的数据的分析,结合并行程序的任务分配策略,我提出熵值均等的分配原则,目的是为了达到各进程的数据处理同步,为规约模块的数据整合任务减轻负担,同时也是为了确保生成的压缩文件有序排列。对于上下文的阶数确定,我也创新性的提出按最大概率分割原则来确定上下文的阶数,从而使自适应算术编码的效率达到最佳。 我的实现方案结合了上面两种先进技术,详细阐述了算术编码的实现,并在实验室中实现了在并行环境中对海量数据的压缩。该方案完全体现了两种技术的优点,达到了理想的效果。
其他文献
不可分离二维小波(滤波器)由于有设计上的更多自由度和更好的频率可选择性,成为当前小波理论及应用领域的热点。尽管目前已有了一些二维不可分离小波滤波器构造的方法,但在实际
JSP是目前主流的Web数据库访问技术,具有访问效率高,开发方便,独立于平台等渚多优点,是未来最有发展前景的Web数据库访问技术。Struts是目前非常流行的Web应用框架,Hiberante是目
随着面向服务计算技术的发展和应用,服务的非功能属性(即服务质量,QoS)保障能力成为Web服务能否在企业应用中获得成功的关键因素。基于策略的方式是当前Web服务质量保障的主流
本文的目标是设计一个用于多集合成员快速查询的紧凑型数据结构。多集合成员查询是计算机系统和网络应用的基本操作。例如,二层交换机会把MAC地址映射到某个端口,能够根据MAC
计算机硬件技术的持续提高和无线宽带网的出现,推动了移动通信业务,尤其是移动电子商务的高速发展。目前,数字电路的集成度越来越高,移动设备的性能不断提高,为移动通信业务提供了
在金融领域中,许多需要处理大量字符信息录入的场合,在很大程度上要依赖数据信息的输入。发票上的号码是发票印刷数量的标识,每张没有重复,因此可以用来标识发票的身份,如果
近年来,随着互联网上各种信息的爆炸式增长,人们往往淹没于大量可获取的信息当中。为了帮助用户有效地管理,获取和检索这些庞大的信息,信息抽取技术自然而然地成为了解决问题的途
人脸眼睛定位与跟踪问题是自动人脸识别系统的重要环节。由于其在安全访问控制、可视电话、视频会议、基于内容的压缩与检索、身份鉴别、人机智能交互、视觉监测、预防疲劳驾
本文对KVM动态自适应编译执行方式进行了研究。文章分析了应用于Java虚拟机的几种主要的性能优化技术,并针对嵌入式设备的硬件特点,分析了现有的编译优化技术应用于嵌入式Java
经国务院批准,我国在2006年进行了第二次全国残疾人抽样调查,根据调查结果推算,2006年我国各类残疾人的总数为8296万人,其中视力残疾1233万人。视障人群由于视力方面的残疾,无法像