Near-duplicate document detection with improved similarity measurement

来源 :中南大学学报(英文版) | 被引量 : 0次 | 上传用户:Tianxudong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
To quickly find documents with high similarity in existing documentation sets,fingerprint group merging retrieval algorithm is proposed to address both sides of the problem:a given similarity threshold could not be too low and fewer fingerprints could lead to low accuracy.It can be proved that the efficiency of similarity retrieval is improved by fingerprint group merging retrieval algorithm with lower similarity threshold.Experiments with the lower similarity threshold r=0.7 and high fingerprint bits k=400 demonstrate that the CPU time-consuming cost decreases from 1 921 s to 273 s.Theoretical analysis and experimental results verify the effectiveness of this method.
其他文献
Intet traffic classification plays an important role in network management,and many approaches have been proposed to classify different kinds of intet traffics.
数字水印技术是目前信息安全技术领域的一个新方向,是一种可以在开放的网络环境下保护数字作品版权和认证来源及完整性的新型技术。根据水印的隐藏位置可以把水印算法分为空
“青研红”是富士与秋红杂交育成的中晚熟苹果新品种。2012年12月通过山东省农作物品种审定委员会审定。该品种果实圆球形,果形指数0.82。平均单果重257.1 g,最大单果重508.0
淘一本经典画册、坚持拍摄100天,不管是新项目还是旧画册,我们期待这些诚意的推荐,能激发你更有趣的拍摄灵感和创意。东京神保町淘老画册旅游版编辑·贺兰神保町是东京都最让
高等教育目前至少承担着三个方面的职能,即人才培养、科学研究、社会服务.在目前知识经济社会发展过程中,科学技术对社会发展的贡献越来越大,作为高校已经被推倒了社会发展的
粗糙集理论被提出时仅用于处理完备的数据,后来粗糙集逐渐被拓展应用于处理不完备的数据.当信息系统不完备的时候,我们可以将不完备信息系统转化为集值信息系统进行研究,前人
DifferentiAlequations are powerful tools to model the time evolution of dynamical   systems, which have arisen widely in mechanics, physics, biology, ecology
对于燃气行业来说,产销差是一项重要的经济指标,由于其影响因素众多,一直是燃气企业重点关注的管理指标,如何控制好产销差是摆在每个燃气行业从业人员面前的课题。为了做好产销差
本文基于微分方程定性理论和梯度系统方法研究了几类特殊Lagrange系统的奇点及其稳定性并利用Matlab对系统进行数值模拟画出其庞家莱截面图、相图及时域图观察系统在相空间中
本文主要研究了Hopf拟群上的L-R-smash积,并对偶地给出了Hopf余拟群上的L-R-smash余积及一些结果。   全文共分三章:   第一章首先介绍了Hopf代数以及Hopf拟群的发展情