Winnowing指纹串匹配的重复数据删除算法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:xiaofch22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合适的分块大小;然后,在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后,在确定分块边界时,提出指纹串匹配的分块算法,不需要预先设置参数,使得指纹计算和对比开销减少。在多种数据集上的实验结果表明,相比固定长度分块(FSP)和CDC算法,DWFM在数
其他文献
我国企业尤其是国有企业“降杠杆”是一项重要的经济工作任务,合理的资本结构是国有企业实现降杠杆的重要保证。文章选取我国沪深A股国有上市企业相关数据,实证检验了社会责
2月18日晚上9点多,万籁俱寂,湖北省六合垸农场卫生院院长蒋盛俊拖着疲惫的身体回到值班室躺下。忙完了一天的公事,他心里还有一件家事沉甸甸地压在心里头。"雨晴,还在发烧吗?
我们都是小人物,也说不出豪言壮语,比起那些失去亲人的武汉同胞,比起那些还冲在"疫"线的白衣天使,我们是何等的幸运。这些天所经历的种种,让我想用最喜欢的文字,记录下这些风
目的:探讨罗伊-纽曼(Roy-Neuman)综合模式在浸润性膀胱癌手术患者中的应用效果。方法:选取浸润性膀胱癌患者77例,均行腹腔镜膀胱全切术,按照入院时间分为对照组(n=38)、观察
新收入准则自2018年起已执行二年,国际财务报告准则解释委员会(IFRIC)相应发布多项议程决定。文章以新收入准则五步法模型为起点,从第五步收入确认着手,回顾了控制概念、确认
期刊
在现实网络规模不断增大的同时,其结构也越来越复杂,针对传统社区算法难以高效处理大规模复杂网络数据的问题,提出了一种基于社区重叠度和模块度增量的社区识别方法。首先根据社区节点聚集度较大的特点寻找中心节点,初步划分社区;然后将属于多个社区的重叠节点进行拆分,进而得出社区的重叠度和模块度增量;最后找出模块度增量为零的节点对,从而实现对大规模复杂社区的识别。对重叠度和模块度增量进行了分析,结果表明:所提出
结合施工实践,提出了合理选择施工机械的一般原则,详细地介绍了工程施工机械的合理配置及选择方法,分析了设备管理中存在的问题,阐述了设备管理的措施,以加强机械设备的管理,从而获
确立了一个适于测定饲料中脱氧雪腐镰刀菌烯醇(Deoxynivslenol,简称DON)的薄层层析法。该方法可排除样品中成分复杂、干扰物质多的不利条件,提取和净化效率高,操作较简便,具
观察1%地蒽酚蜡棒治疗寻常型银屑病疗效和不良反应.采用随机对照开放性研究.将83例寻常型银屑病病人随机分为试验组和对照组,分别外涂1%地蒽酚蜡棒和1%地蒽酚软膏,每日1次,8wk后比较