基于CURE算法的相似重复记录检测技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:jc85858958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清洗在数据挖掘中占有越来越重要的地位,相似重复记录的检测是数据清洗的核心任务。对于语义重复记录的检测,至今没有成熟的算法,本文首先利用本体在语义处理方面的优势,提出了一种基于本体的数据清洗系统,从理论上对语义重复记录检测进行尝试。 由于传统相似重复记录检测算法在处理簇形状不均匀、相似重复记录分布较复杂的大数据集时准确性不高,本文重点提出利用CURE算法效率较高,可以处理任意形状的簇,对于孤立点数据不敏感的优点,将其用于相似重复记录的检测并对CURE算法进行改进。提出了预抽样(pre-sampling)概念,可以有效地确定数据集中相似重复记录的分布情况,提高随机抽样的准确性。并针对CURE算法选取代表点的不足,提出了一种基于距离影响因子的代表点选取方法,较好地反映了簇的形状,提高了代表点选取的合理性。 最后,利用改进算法构建了相似重复记录检测模型CIMDR,详细分析了模型的运行过程。理论和实验表明,与传统算法相比,改进算法在相似重复记录检测方面的准确性和效率都得到了提高。
其他文献
随着网络飞速发展,网络的规模越来越大。互联网络已经发展成为一个巨大的、分布广泛的信息库,基于这个巨大信息库的应用将产生同样巨量的网络日志,这些网络日志蕴含着极其丰
随着嵌入式设备和身份识别技术的广泛使用以及无线网络的普及,普适计算成为当前研究的一个热点。普适计算是一个异构、多变的分布式计算环境。如何构建一个知识共享、知识重
我国的电子词典自上个世纪80年代末诞生以来得到了迅速发展,虽然只有二十年的历史,电子词典却已经成为词典家族中具有旺盛生命力的一员。电子技术的发展使得辞书的载体、查检和
本文通过对荣华二采区10
GML是开放地理信息系统协会(OpenGIS Consortium,简称OGC)制定的、基于XML的地理信息编码标准,用于空间数据在网络上的传输、存储和发布。它中立于任何厂商、任何平台,为地理
环绕智能是欧洲信息社会咨询组对未来信息社会提出的新构想。它是一种智能化、人性化的电子环境,周围被嵌入式计算设备包围着。但在这种环境中,人机交互的模式从传统的以计算
大量研究发现,在颅内血管的流体力学仿真模拟中,精确的血管数据对于实验结果非常关键,微小的数据差异可能产生很大的差距,因此如何有效地分割血管成为仿真研究过程中重要一环
随着Internet的飞速发展,WEB已经渗透到各行各业当中,从商业、银行、财政、娱乐、教育到政府机构,WEB应用对人们的日常生活、工作产生了深远的影响。WEB以其生动丰富的用户界
RTU(Remote Terminal Unit,远程终端单元)是构成SCADA(Supervise Control And Data Acquisition,数据采集与监控)系统的核心设备。它的作用是能对现场各种信号进行数据采集、数