论文部分内容阅读
针对传统的大数据访问中信息传输冗余量消除方法存在查全率、信息传输冗余量消除效率以及速率较低等问题,提出了基于Hamming距离值的大数据访问中信息传输冗余量消除方法。利用滑动以及滚动相结合的窗口移动模式减少窗口计算量,将Rsync滚动校验算法以及MD5算法相结合,在文件任意位置开始计算滚动校验值,通过递进关系,获取连续数据块的校验值,根据不同数据块的校验值进行数据匹配。将经过匹配后的数据块利用CDC分块检测算法进行检测,根据余弦相似度计算公式以及Hamm距离值计算相似度,实现大数据访问中信息传输冗余