【摘 要】
:
针对处理相似重复数据时,没有充分考虑影响相似度计算的相关因素导致检测准确度不高、数据清洗不干净以及因为某些汉明距离计算没有意义,导致指纹签名匹配速度不快等问题,提
论文部分内容阅读
针对处理相似重复数据时,没有充分考虑影响相似度计算的相关因素导致检测准确度不高、数据清洗不干净以及因为某些汉明距离计算没有意义,导致指纹签名匹配速度不快等问题,提出一种基于Simhash算法的相似重复数据的检测方法,该方法能够提高相似重复数据检测的正确率和速度。
其他文献
钱大昕认为诗有才、学、识、情四长,四者缺一不可:才情需学识相济,才学兼用益彰,才需情的主宰。钱的"四长"诗学观,既打上了其身为汉学大师的学术烙印,是汉学家诗论的典型代表
全国大学生电子设计大赛是由教育部主办的学科竞赛,竞赛内容反映了现代电子技术的应用与发展趋势。本文阐述了如何以电子设计大赛为契机,促进本科电子技术课程教学的内容和实
在当今西方艺术史研究中,17世纪意大利女艺术家阿特米西亚·真蒂莱斯琦(Artemisia Gentileschi,1593-1652)堪称为一位焦点人物。本文将把这位在西方“传统艺术史”和西方女性艺
在阐述三明市农村土地承包经营权抵押贷款运行情况和特点的基础上,分析了制约其发展的制度安排不足,并从贷款手续、违约处置、交易成本、价值评估和资金来源等方面提出完善建
进入21世纪以来,福建省在经济快速增长的同时,区域间的经济差距也在不断扩大。我们依据世界银行的《2009年世界发展报告:重塑世界经济地理》中提出的新经济地理的分析框架下
针对目前国内外城市内河湖水系连通相关的理论和技术仍然处在探索阶段,本文介绍了九江河湖水系连通提出的背景,结合九江当前的基本状况以及城市河湖水系连通工程的构想,强调
<正>面对大数据时代的全面到来,互联网金融冲击的挑战,商业银行零售业务所处的环境发生了深刻的变化。本文从这一问题的研究背景入手,分析了目前我国商业银行零售业务发展存
目的研究阿帕替尼联合经肝动脉化疗栓塞术(TACE)治疗中晚期原发性肝癌患者的临床效果。方法将40例中晚期原发性肝癌患者随机分为2组,分别接受TACE治疗(对照组,n=20)及TACE联
好莱坞电影被早期大众文化批评认为是美国文化帝国主义自上而下向全球传播的途径,约翰·汤林森的文化帝国主义理论、斯图亚特·霍尔的编码与解码的大众传媒模式和约翰·费斯
近年来,楚雄州的民族立法在取得很大成绩的同时,也存在民族法规的修改完善工作滞后、立法变通权行使不充分等一些不容忽视的问题。因此,必须采取切实可行的措施加以解决,促进