论文部分内容阅读
网络技术的飞速发展加速产生了大量重要数据,对这些数据的存储和保护需求已达到PB级别。尽管数据成指数级别增长,但研究表明,冗余数据大量存在于信息处理和存储的各个环节,如内容分发网络、web应用以及文件系统和操作系统中。对这些数据的保护如周期性备份、镜像、快照、持续数据保护和复制等更是加速了冗余数据的增长,导致网络带宽紧张以及系统成本的上升。为了消除数据保护过程中通过网络传输的冗余数据,提高复制效率,降低成本,精简复制技术已经成为一个备受关注的研究课题。
本文针对现有远程异步复制系统未消除复制流中的冗余数据,复制效率较差的问题,提出了一种两级冗余消除的精简复制架构。该架构在设备驱动层采用基于内存日志的重复块过滤方法消除复制流中同一数据块的多个版本,在主机接口驱动层采用基于指纹比对的复制数据流精简方法消除复制流中内容相同的数据块,有效精简了远程异步复制流中的冗余数据,具有良好的复制效率。
现有的远程异步复制系统使用磁盘日志形式记录数据更新信息,然后在数据提交到发送队列时扫描待发送缓冲区中的数据,过滤掉同一个数据块的多个版本记录,此方法需要从磁盘中读取日志记录,且当队列比较长时,消耗比较长的发送准备时间。为此,提出了一种基于内存日志的重复块消除方法,在内存日志记录数据更新信息时,只记录同一个数据块的最近更新记录,从而在日志阶段消除复制流中同一数据块的多个版本,该方法既节省了内存日志容量又减少了复制进程需处理的数据量。
提出了一种基于指纹比对的复制数据流精简方法,该方法在复制系统的主端记录热点数据指纹信息,在数据发送前对复制流进行过滤,对发送缓冲区中的数据进行去重处理,该方法节约了网络带宽。
实现了两级冗余消除精简复制机制,在原型系统上的测试结果表明,与未实现精简复制机制的复制系统相比,两级冗余消除精简复制机制可以精简复制流中15%~40%的冗余数据,有效提高复制效率。