基于存储系统的重复数据删除技术的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zhaochunbo123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爆炸式增长的数字信息给人们的日常生活乃至企业的业务运营都带来了巨大的挑战,存储系统中的冗余数据信息变得越来越多,极大地增加了存储备份的开销,降低了存储系统的性能。研究如何消除存储系统中的冗余数据,降低存储开销问题变得尤为重要。近年来,重复数据删除技术(简称去重技术)被广泛应用于数据存储系统中,并成为计算机应用领域所研究的一个热点。但是现有的针对存储系统的重复数据删除技术的研究缺乏对相似性数据检测精度问题以及减少存储设备访问开销问题的深入研究,导致系统性能不高,达不到高速且高效的重复数据删除效果。为了解决上述问题,课题从存储系统中相似性数据检测的精确度以及优化存储系统访问开销等方面进行分析研究,以找到更加高效的相似数据检测技术以及开销更小的存储系统访问的解决方法。为了在大规模文档去重中提高相似数据检测的精度,课题对基于Simhash算法的大规模文档去重技术进行深入地研究,在原有算法的基础上对Simhash指纹值的计算过程做出改进,引入ICTCLAS分词技术生成更加精确且标有词性的分词,将TF-IDF技术作为计算权重的主要方法来抑制某一文档内无意义高频词出现的负面影响,同时将特征值的词性与词长两大影响因素考虑其中,然后对产生的指纹值进行汉明距离的比较,从而更加精确地判定出待比较者是否为相似数据。为了缓解存储系统中因为重复数据索引而引起的存储设备访问过于频繁的问题,课题对重复数据删除技术进行了深入的研究,并针对目前重复数据删除技术中Bloom Filter的运用以及存在的存储设备访问性能问题进行分析和研究,提出一种基于Bloom Filter的高效重复数据删除优化模式。针对单一Bloom Filter固有的假阳性的缺陷,课题增加辅助Bloom Filter,从而减小误判率,达到减少存储设备访问次数的目的;针对因系统软件错误引起的Bloom Filter假阴性缺陷,课题引入单校验位的错误校验机制,在不增加过多内存存储开销的同时可以避免假阴性发生所带来的问题。最后,分别针对课题改进的Simhash算法和Bloom Filter算法的算法性能进行实验分析。测试结果表明课题提出的改进Simhash算法总体性能优于Shingle算法和原Simhash算法,能够提高产生指纹值的精确度;优化的Bloom Filter算法通过引入一种判断机制配合辅助Bloom Filter和单校验位机制,能够达到误判率降低、存储设备访问开销减小的高性能优化效果。
其他文献
随着Internet越来越迅速的发展,它给我们带来了海量信息,也给用户提供了许多有用的信息,但同时我们要在这么多的信息中查询我们所需要的信息也是十分困难的。搜索引擎成为人
尽管近十余年来鲁棒数字水印取得了长足的进展,但如何以可行的视觉失真和计算时间获得大容量和预设的鲁棒性以及如何有效抵抗几何变换仍然是鲁棒数字水印所需应对的课题。为了
学位
大脑皮层是大脑的表层部分,是我们意识活动的物质基础,研究表明,随着大脑的发育和老化,以及病理改变,皮层厚度在相应区域会呈现出显著的变化,即皮层厚度在一定程度上表征了脑
我们在对如何加强终端安全及如何实现安全应用的发布等问题进行了深入研究后,指出要使一个应用软件运行可信,必须具备以下两个条件:一是应用在运行前是可信的,即未被窜改;二是
数据库技术日趋成熟,已应用于各行各业,但仅限于具有专业知识的人员操作。自然语言作为信息表达的主要方式,与数据库查询技术结合在一起,使得越来越多的非专业用户能够以一种易于
本文在分析程序安全检查工具框架的基础上,根据安全检查的特殊需求,给出了一种基于ASM(一种字节码分析工具)构造Java安全检查器前端的方法,并将此方法应用于实际开发过程中。
当今,随着网络技术的迅猛发展和广泛应用,网络已经成为人们共享信息的主要方式,人们可以随时、随地以各种方式提供和接受信息。然而,网络技术是一把双刃剑,在给人们带来巨大便利的
分析和识别单体型对复杂疾病致病基因的精确定位有重要作用,但是在当前的实验技术下直接测定个体单体型所需的时间和金钱上的花费过于昂贵,因此利用计算机技术来确定个体的单体
人工免疫系统是用来解决复杂问题的自适应系统,其中人工免疫网络可用于分析数据的聚类问题,数据聚类是实现图像分割的一种常用的方法。因此,本文围绕人工免疫网络在图像分割
近年来,计算机CPU速度的高速增长和内存速度的缓慢增长使得CPU和内存之间的速度差距越来越大,这导致内存系统成为性能上的瓶颈,现代计算机体系结构中广泛采用Cache来降低这种