论文部分内容阅读
随着数据的爆炸式增长,我们现在正处于大数据时代。一个亟待解决的问题是尽力提高大数据管理和分析的操作效率。在这种情况下,重复数据删除技术被广泛被应用到各种领域中,包括数据存储系统、数据备份系统、数据容灾、医疗等等,甚至向通信领域进行延伸。本文对重复数据删除系统的几项关键技术进行了分析和研究,并针对重复数据删除系统的性能优化提出了新的系统设计和相关算法。本文的主要创新包括以下几项内容:(1)提出了一种基于应用感知的重复数据预测机制。重复数据预测技术能够在执行重复数据删除之前,让用户了解重复数据删除系统的效用,为用户需要的存储系统空间大小提供参考。相比于现有的重复数据删除技术,应用感知的重复数据预测技术能够进一步减小预测索引表的大小,进一步提升了预测算法的性能。(2)提出一种索引表的自适应更新算法。以往的重复数据预测算法只能够根据固定的索引表项,预测数据集内部或数据集与存储系统之间的数据相似率。索引表自适应更新算法根据访问数据块的相关信息,不断更新索引表,能够同时考虑数据内部的冗余度和数据与存储系统中数据的冗余度,提高了重复数据预测算法的准确性。(3)对重复数据删除系统中的磁盘索引瓶颈问题进行优化,提出了一种基于热点数据识别的Cache替换算法。我们通过研究发现数据中重复次数较多的数据占数据总数的较大部分,我们称之为数据的重复性特征。利用数据的重复性特征,基于热点数据识别的Cache替换算法能够获得更高的Cache命中率,减少磁盘的读写次数,降低了磁盘索引瓶颈问题对重复数据删除系统索引操作性能的影响。上述几项应用感知的重复数据删除关键技术的研究成果,为云存储环境下的数据存储与管理提供了有效的优化手段。