在线重复数据删除技术的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tttde123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化建设的不断深入,企业数据信息量呈几何级数增长。信息量的不断扩张带来以下两个问题:一是存在着大量的重复数据,导致存储空间的大量浪费,企业的存储成本提高;二是高访问量使得磁盘存储设备逐渐成为数据中心的访问性能瓶。针对上述问题,通过对重复数据删除技术的研究,以及对固态硬盘性能和特性的调研,提出了一种基于iSCSI平台的分级存储技术与重复数据删除技术相结合的存储系统。首先,深入研究了重复数据删除技术,采用了基于散列的重复数据删除方式,实现了以下基本功能:指纹计算、指纹检索、指纹索引表管理;为了弥补重复数据删除对系统带来的性能损失,提出了“内存—固态盘—磁盘”分级存储系统,用固态盘充当二级缓存,利用其读写性能好、容量大、非易失性等特点,提高系统整体性能;通过虚拟空间映射功能,将服务器物理磁盘虚拟为一个较大的虚拟盘,然后按分区映射给多个客户端,实现单服务器---多客户端功能。然后针对重复数据删除功能中指纹检索性能瓶颈,进行了专门的算法优化。首先提出了基于布隆过滤的检索过滤算法,过滤掉大量不必要的指纹检索请求;然后实现了指纹索引表“内存—固态盘”分级存储策略,充分利用固态盘较好的读性能,避免索引表存储到磁盘,产生磁盘访问性能瓶颈。最后,对分级重复数据删除系统进行了相关测试。首先对系统进行了性能对比测试,结果表明,重复数据删除功能由于计算量较大,会带来一定的性能损失,但与分级存储技术相结合之后,整体性能反而有一定的提升;然后对重复数据删除的压缩比进行了测试,结果表明,重复数据删除技术对于信息重复度较高的应用环境,如文档应用,具有较好的压缩效果;最后对指纹检索过滤算法进行了测试,其过滤率和误判率都达到了预期效果。
其他文献
数据传输是各种类型的无线网络都必须关注的基本功能。在本论文中,我们重点关注两种类型的无线网络—无线传感器网络和无线双向中继网络—中的基于编码的无线数据传输。无线
传统的无线自组织网络通信中,组成无线自组织网络的中间节点主要负责接收相邻节点发送的数据信息,然后将接收的数据信息进行存储与转发。由于无线自组织网络通信具有不稳定性
服务业作为从事社会化、专业化服务生产的产业,在社会经济中扮演着越来越重要的角色,世界经济已经进入服务经济时代。将整个服务提供过程整合起来实施服务供应链管理,有助于准确
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,关联规则挖掘是数据挖掘的一个主要研究内容,研究高效的关联规则挖掘算法具有重要的现实意义。发现频繁项集是关联
随着线性控制理论和网络通信相关技术的发展,网络化控制系统受到越来越多的关注。相对于传统的点对点直接连接的控制系统而言,网络化控制系统有许多优点。例如,系统的安装费
互联网中包含着大量的半结构化的XML数据,正是因为这种半结构化特性,使得用传统的数据库查询优化技术来检索数据十分困难。如果通过代数系统对XML查询表达式进行转化,然后应
为了研究煤矿安全预测本质,正确有效地预测煤矿系统的安全状况,基于目前煤矿安全研究现状和手段,从煤矿系统安全预测的内在规律性、有效时间长度及有效性等方面对煤矿进行了
近年来,CAN总线因其实时性强、安全性好、便于扩展等优点,逐渐成为现场总线的主流。目前,除在一贯使用良好的汽车领域外,CAN总线在过程自动化、楼宇自动化、制造自动化等领域也都
随着Internet的快速发展,许多关键服务都通过网络来提供,所以如何能够保证网络本身的安全和可用性成为网络安全研究中一个最重要的问题。拒绝服务攻击由于其容易实施、难以防范
随着处理器制造技术的发展,处理器中晶体管的集成度及处理器运行的时钟频率越来越高。处理器性能在不断提升的同时,其运行时产生的过高温度也带来了严重的问题。处理器温度过高