论文部分内容阅读
爆炸式增长的数字信息给人们的日常生活乃至企业的业务运营都带来了巨大的挑战,存储系统中的冗余数据信息变得越来越多,极大地增加了存储备份的开销,降低了存储系统的性能。研究如何消除存储系统中的冗余数据,降低存储开销问题变得尤为重要。近年来,重复数据删除技术(简称去重技术)被广泛应用于数据存储系统中,并成为计算机应用领域所研究的一个热点。但是现有的针对存储系统的重复数据删除技术的研究缺乏对相似性数据检测精度问题以及减少存储设备访问开销问题的深入研究,导致系统性能不高,达不到高速且高效的重复数据删除效果。为了解决上述问题,课题从存储系统中相似性数据检测的精确度以及优化存储系统访问开销等方面进行分析研究,以找到更加高效的相似数据检测技术以及开销更小的存储系统访问的解决方法。为了在大规模文档去重中提高相似数据检测的精度,课题对基于Simhash算法的大规模文档去重技术进行深入地研究,在原有算法的基础上对Simhash指纹值的计算过程做出改进,引入ICTCLAS分词技术生成更加精确且标有词性的分词,将TF-IDF技术作为计算权重的主要方法来抑制某一文档内无意义高频词出现的负面影响,同时将特征值的词性与词长两大影响因素考虑其中,然后对产生的指纹值进行汉明距离的比较,从而更加精确地判定出待比较者是否为相似数据。为了缓解存储系统中因为重复数据索引而引起的存储设备访问过于频繁的问题,课题对重复数据删除技术进行了深入的研究,并针对目前重复数据删除技术中Bloom Filter的运用以及存在的存储设备访问性能问题进行分析和研究,提出一种基于Bloom Filter的高效重复数据删除优化模式。针对单一Bloom Filter固有的假阳性的缺陷,课题增加辅助Bloom Filter,从而减小误判率,达到减少存储设备访问次数的目的;针对因系统软件错误引起的Bloom Filter假阴性缺陷,课题引入单校验位的错误校验机制,在不增加过多内存存储开销的同时可以避免假阴性发生所带来的问题。最后,分别针对课题改进的Simhash算法和Bloom Filter算法的算法性能进行实验分析。测试结果表明课题提出的改进Simhash算法总体性能优于Shingle算法和原Simhash算法,能够提高产生指纹值的精确度;优化的Bloom Filter算法通过引入一种判断机制配合辅助Bloom Filter和单校验位机制,能够达到误判率降低、存储设备访问开销减小的高性能优化效果。