基于CSSN算法的重复记录检测研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:guli880712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复记录检测问题已有半个世纪的研究历史,这个问题所具有的重要实际意义以及挑战性使得其一直是一个非常热门的研究方向,吸引了包括统计学、生物学、数据挖掘、机器学习、人工智能、信息检索、知识工程、数据库等等领域的大量专家学者。本文对重复记录检测算法进行了研究,主要工作有:  (1)对重复记录检测领域进行了广泛调研并详细综述了相关研究成果。首先将重复记录检测工作分为三个阶段,然后对各个阶段使用的技术和算法进行了归类整理,最后归纳总结了重复记录检测的评价标准和检测框架。  (2)针对一个典型的基于聚类的CSSN重复记录检测算法进行了算法效率改进。首先对CSSN算法的功能性能进行了实验验证,并详细分析了算法各步骤的时间复杂度,然后在分析基础上来降低算法的时间复杂度。实验表明,效率改进后的CSSN算法可以在基本不影响算法准确度的情况下将算法的时间复杂度从原来平方级的降低至近似线性的。  (3)对效率提高后的CSSN算法进行了通用性扩展。首先对CSSN算法的通用性局限进行了深入分析和实验验证,然后在实验分析基础上提出了模糊紧密集合等五方面的通用性改进措施。实验表明,通用性改进后的CSSN算法在各种重复度的数据集下均可达到很高的查准率和查全率。
其他文献
随着城市化的建设,工程车辆的使用频率大大提高,而工程车辆相对普通车辆更具有危险性。吊车、挖掘机、吊臂、浇灌车等工程车辆既有可能伤害到人,也可能会对电线等基建设施造成危
专利预警是指通过收集与分析目标领域的国内外专利相关信息,了解技术发展现状、发展趋势及竞争势态等情况,对重要趋势、研究热点、潜在专利纠纷及危害程度等情况及时向决策者发
学位
近年来,随着模式识别与计算机视觉等技术的快速发展,科研人员提出了计算审美的概念。计算审美的目的是让计算机能够像人那样可以理解、欣赏美。它是一门新的跨领域学科,涉及包括
随着人们对安全需求的增加,视频监控系统被大量安装于各种公共场所。视频监控系统的最重要的目的之一是监控视频中人员的行为,并在发生事件时能够确定人员的身份特征。人脸是人
学位
增强现实是将虚拟信息融合到真实物理场景中,使人们更好地认识和理解物理场景。这些虚拟信息主要包括声音、视频、图像、GPS数据等。增强现实应用前景广阔,可应用于医疗、科学
近年来,复杂时序数据越来越多的出现在日常应用中,其属性多、持续时间长和特征演化复杂等特点也为分析研究这些数据带来了难点。可视化技术可以形象地展示出数据内部特征,并且通
智能视频监控在近些年来引起很大的关注,而运动的行人检测在视频监控中占据了很重要的地位。之前已经有方法结合监控视频的特点直接利用前景检测结果进行行人检测,但是这些方法
脚楦测量与舒适度评价技术是面向个性化定制的鞋类制造的关键技术。本文基于计算机视觉、计算机图形学、数字几何处理方面的技术,对脚型与楦型的线性与非线性参数的测量问题进