论文部分内容阅读
在信息社会高速发展的时期,移动互联网快速发展,加上个人云存储等以个人云为基础的服务快速兴起,推动了数据云同步和云存储业务的增长,使得网络数据信息量呈现爆炸式增长形势,给网络存储空间和网络带宽带来了巨大的压力,尤其是在移动互联网领域,问题则更为明显。众所周知,移动终端存储空间相对较小,并且移动互联网的接入网络如蜂窝网的成本相对较高,所以,面向移动终端的数据云服务对存储空间和网络带宽有着更高的要求,如何减少冗余数据的传输和存储就显得至关重要。重复数据删除技术(Data De-duplication Technology)通过删除数据存储系统中相同的文件或相同的文件数据块,只保留重复文件或重复数据块的一个备份,以达到消除数据冗余并缩减网络存储空间的目的,同时提升了网络带宽的利用率。根据文件数据去重的粒度重复数据删除技术可分为文件级别的重复数据删除技术、数据块级别的重复数据删除技术和数据对象级别的重复数据删除技术。目前重复数据删除技术已经应用于数据备份和存储系统中,大幅减少了数据冗余,提高了存储空间的有效利用率。但是,由于移动互联网接入网络和移动终端内存小等一系列局限性,重复数据删除技术并没有在移动互联网领域得到广泛应用。虽然在移动互联网领域也出现了部分应用重复数据删除技术的实例,但是该类应用仍然有很多不足之处可以得到改进。比如以Dropbox为代表的基于个人云服务的应用采用了以定长切分算法(FSP)为基础的数据块级别的重复数据删除算法,此方法虽然简单有效,但是对于增加数据和删除数据的操作敏感性太高,从而影响了数据去重率。本文提出将多种重复数据删除技术应用于移动互联网领域,以数据去重率和移动终端设备性能损耗两方面作为主要衡量标准,面向移动互联平台对重复数据删除算法进行深入的研究和优化。主要完成了以下两方面工作:第一,结合移动互联网在移动终端性能和网络接入等多方面的限制,综合数据去重率和机器开销两方面因素,选取适用于移动互联网的最优重复数据删除算法进行深入研究和优化;第二,采集多种类型的文件作为样本,对移动互联平台的最优重复数据删除算法的数据块切分算法选择和数据块切分粒度设置方面进行了优化和实验验证,为重复数据删除技术在面向移动互联网平台的云同步和云存储领域的应用提供依据,同时设计了面向PC、移动设备和云服务器的三端重复数据删除云存储和云同步系统。