海量数据的相似重复记录检测算法

来源 :计算机应用 | 被引量 : 25次 | 上传用户:bjzmht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。
其他文献
一种判断数据是否是冗余数据的方法被提出,即分别计算出删除这些数据之前和之后的信息系统属性约简,若两者相同,则说明这些数据是冗余数据;若不相同,则不是.从这一思想出发,先提出了
反腐倡廉建设是保持党的纯洁性的重要保证。本文分析了铁路的廉政形势,从深化理想信念教育、把好关口、弘扬党的传统和作风、加强监督和严明纪律、发挥纪委职能等五个方面阐
针对现有利用快速鲁棒特征(SURF)进行图像分类的方法中存在的效率低、正确率低的问题,提出一种利用图像SURF集合的统计特征进行图像分类的方法。该方法将SURF的各个维度及尺度信息视为各自独立的随机变量,并利用拉普拉斯响应区分不同数据。首先,获取图像的SURF向量集合;然后,分维度计算SURF向量集合的一阶中心绝对矩、带权一阶中心绝对矩等统计特征,并构建特征向量;最后,结合支持向量机(SVM)进行
在农业产业化不断发展的今天,农业产业化龙头企业已成为带动农业产业化发展的主要模式。本文在诠释农业产业化龙头企业核心竞争力内涵的基础上,分析目前我国农业产业化龙头企
针对四旋翼飞行器在不同环境下的飞行稳定性问题,提出反步法和模糊自适应比例积分微分(PID)方法的混合控制方法。该方法根据无人机(UAV)飞行环境和大倾角、大倾角变化率选择当前合适的控制器。在系统未受扰动时,基于Backstepping的控制方法能够完成飞行器的轨迹跟踪;在受扰动时,基于模糊自适应PID能够极大地抑制扰动带来的影响,实现对四旋翼飞行器的精确控制。通过Matlab仿真分析及实际飞行器实