基于分块和滑窗技术的相似重复记录检测算法研究

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:Colo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。
其他文献
本文就宽极距高压静电收尘器和常规高压静电收尘器,在设计计算驱进速度上的不同步进行了推理,并提出了修正的方法和具体意见。
在作文评测中,句间逻辑合理性是评价语言运用能力的一项重要指标。从句间连贯性角度出发,采用句子排序的相关算法研究句间词汇中的潜在关联,并对作文段落逻辑合理性进行定量分析,达到对作文段落逻辑合理性等级评测的目的。以计算条件熵为基础,使用马尔科夫随机游走模型进行句子排序;计算过程中融入word2vec和同义词词林进行语义扩展;经ROUGE-L评分,该模型取得了较好的效果。提出带优化的句间逻辑合理性评测模
随着高等职业教育的不断深入,教学对实践提出了较高的要求,如何切实培养学生的技能成为一个新课题。本文研究了机电一体化教学的特点,并分析了实践教学的发展现状及存在的问
一个复杂的ROP shellcode从语义层面经常会用到循环和递归等控制流形式。条件跳转控制流gadget是循环和递归等控制结构的基础。然而ARMv7指令集中的间接条件跳转指令在ARMv8指令集中已经不再存在。ARMv8指令集中的条件跳转指令的目标地址的偏移已经被硬编码,不能被使用,所以ARMv8架构下只能通过无条件跳转gadget的重复使用实现循环和递归。这不仅执行效率低,而且浪费了大量的内存空
目的探讨有机磷农药中毒并发急性胃粘膜病变出血的病因、发病机理及诊断和治疗方法。方法回顾性分析有机磷农药中毒并发急性胃粘膜病变大出血26例,胃镜下治疗7例,手术治疗20例。胃镜
针对水面漂浮物识别中图像数据量少、噪声影响多,导致识别精度低的问题,采用一种基于深度学习的小样本水面漂浮物识别方法进行水面常见污染物塑料袋与塑料瓶的识别。采用现有大型数据集中的普通塑料袋与塑料瓶图像构建并训练卷积神经网络模型AlexNet;采用梯度下降法对模型进行微调,并用融合的光照矫正法处理待识别图像;将网络识别结果与传统的HOG特征提取方法进行比较。实验结果表明,该方法相较于传统的提取特征方法
目的探讨双香豆素合成的简便方法。方法 采用7-羟基香豆素为原料,与环氧氯丙烷在含在乙醇钠的乙醇溶液中反应,将两个羟基连接起来,然后通过相应的反应再接上其它取代基。结果 产
很多学生在英语学习方面存在着问题,他们的四会能力现状不容乐观,尤其是书面表达能力。对此,广大中学英语教师要转变教学指导思想和教学观念,加强写作训练。本文就如何培养高
如何使抗癌化疗药物较多地透过血脑屏障,提高脑组织及肿瘤组织的化疗药物浓度,使脑转移癌达到满意的治疗效果,已引起肿瘤界医师的广泛关注。作者近2a收治31例肺癌脑转移的病人,在围抗
热喷涂技术是一项金属表面强化和防护的新技术,它是利用氧乙炔火焰、电弧等离子弧、爆炸波等热源将欲喷涂的各种金属或非金属材料加热至熔化或半熔化状态,喷射到预先准备好的零