面向移动终端的数据去重研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:wangbadanwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息社会高速发展的时期,移动互联网快速发展,加上个人云存储等以个人云为基础的服务快速兴起,推动了数据云同步和云存储业务的增长,使得网络数据信息量呈现爆炸式增长形势,给网络存储空间和网络带宽带来了巨大的压力,尤其是在移动互联网领域,问题则更为明显。众所周知,移动终端存储空间相对较小,并且移动互联网的接入网络如蜂窝网的成本相对较高,所以,面向移动终端的数据云服务对存储空间和网络带宽有着更高的要求,如何减少冗余数据的传输和存储就显得至关重要。重复数据删除技术(Data De-duplication Technology)通过删除数据存储系统中相同的文件或相同的文件数据块,只保留重复文件或重复数据块的一个备份,以达到消除数据冗余并缩减网络存储空间的目的,同时提升了网络带宽的利用率。根据文件数据去重的粒度重复数据删除技术可分为文件级别的重复数据删除技术、数据块级别的重复数据删除技术和数据对象级别的重复数据删除技术。目前重复数据删除技术已经应用于数据备份和存储系统中,大幅减少了数据冗余,提高了存储空间的有效利用率。但是,由于移动互联网接入网络和移动终端内存小等一系列局限性,重复数据删除技术并没有在移动互联网领域得到广泛应用。虽然在移动互联网领域也出现了部分应用重复数据删除技术的实例,但是该类应用仍然有很多不足之处可以得到改进。比如以Dropbox为代表的基于个人云服务的应用采用了以定长切分算法(FSP)为基础的数据块级别的重复数据删除算法,此方法虽然简单有效,但是对于增加数据和删除数据的操作敏感性太高,从而影响了数据去重率。本文提出将多种重复数据删除技术应用于移动互联网领域,以数据去重率和移动终端设备性能损耗两方面作为主要衡量标准,面向移动互联平台对重复数据删除算法进行深入的研究和优化。主要完成了以下两方面工作:第一,结合移动互联网在移动终端性能和网络接入等多方面的限制,综合数据去重率和机器开销两方面因素,选取适用于移动互联网的最优重复数据删除算法进行深入研究和优化;第二,采集多种类型的文件作为样本,对移动互联平台的最优重复数据删除算法的数据块切分算法选择和数据块切分粒度设置方面进行了优化和实验验证,为重复数据删除技术在面向移动互联网平台的云同步和云存储领域的应用提供依据,同时设计了面向PC、移动设备和云服务器的三端重复数据删除云存储和云同步系统。
其他文献
敦煌莫高窟游客流量众多,为了进一步加强对莫高窟遗产的保护,对游客流量实时监控具有重要意义。游客流量的监测需求使得对低功耗传感器定位技术的研究成为必需。通过对基于AS39
随着网络的普及和日趋丰富的社交软件的出现,网络作为一个新起的舆论方式已深入人们的日常生活。舆情分析任务涉及分词、聚类、情感分析等相关工作。在这些工作中算法存在效率
基于移动互联网的动漫内容服务已经成为移动互联网领域重要的数据业务,而在终端动漫图片数据处理中,图片存储问题已经成为了一个亟待解决的问题。目前为止,还没有专门针对动
随着人们对业务流程管理的可靠性和正确性要求的提高,科研管理工作流已经成为科研机构实现业务过程自动化的核心技术。建立工作流模型是实现工作流技术的关键环节,模型的优劣
在无线网络的通信过程中,如果数据包长过大,会大大增加数据包的错误率,增加重传次数;如果数据包长过小,会增加包头的比例,降低信道利用率。因此,已有很多工作研究无线网络中数据包
文本分类由来已久,近年来,随着人工智能和机器学习的迅速发展,文本分类也出现了很多新方法。随着技术的发展,一方面,文本语料的数据质量和数量发生了巨大的变化,大规模语料的积累为
随着物联网相关技术的逐步发展,面向各种行业的感知应用也纷纷出现,但也正是由于行业“关注自身”的特点,其感知系统所存在的建设孤立、复杂度高、通用性差、系统封闭、数据共享
软件可靠性测试是保障软件质量的一个重要手段,基于Markov链使用模型的可靠性测试是其中最为重要的方法之一,其包含两个最为关键的流程:一是软件Markov链使用模型的构建;二是
数据时代下智能化是各种设备和应用发展的一大趋势,各种数据挖掘技术正被用于实现这一目标。虽然数据时代的前景十分美好,但是也充满着各种挑战。首先,数据搜集和存储的代价
随着嵌入式软件的发展,软件复杂度和规模愈加庞大,这使得嵌入式软件测试面临着更大的挑战。现今的嵌入式软件测试能力依旧低下,现有的嵌入式测试工具与被测程序之间耦合度高