基于CURE算法的相似重复记录检测技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户：jc85858958

【摘要】

：

数据清洗在数据挖掘中占有越来越重要的地位，相似重复记录的检测是数据清洗的核心任务。对于语义重复记录的检测，至今没有成熟的算法，本文首先利用本体在语义处理方面的优势，提出

【作者】

：

张金明

【机构】

：

中国石油大学(华东)

【出处】

：

中国石油大学(华东)

【发表日期】

：

2008年期

【关键词】

：

数据清洗数据挖掘语义重复记录检测相似重复记录检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据清洗在数据挖掘中占有越来越重要的地位，相似重复记录的检测是数据清洗的核心任务。对于语义重复记录的检测，至今没有成熟的算法，本文首先利用本体在语义处理方面的优势，提出了一种基于本体的数据清洗系统，从理论上对语义重复记录检测进行尝试。由于传统相似重复记录检测算法在处理簇形状不均匀、相似重复记录分布较复杂的大数据集时准确性不高，本文重点提出利用CURE算法效率较高，可以处理任意形状的簇，对于孤立点数据不敏感的优点，将其用于相似重复记录的检测并对CURE算法进行改进。提出了预抽样(pre-sampling)概念，可以有效地确定数据集中相似重复记录的分布情况，提高随机抽样的准确性。并针对CURE算法选取代表点的不足，提出了一种基于距离影响因子的代表点选取方法，较好地反映了簇的形状，提高了代表点选取的合理性。最后，利用改进算法构建了相似重复记录检测模型CIMDR，详细分析了模型的运行过程。理论和实验表明，与传统算法相比，改进算法在相似重复记录检测方面的准确性和效率都得到了提高。

其他文献

用贝叶斯网络挖掘网络日志的研究与实现

随着网络飞速发展,网络的规模越来越大。互联网络已经发展成为一个巨大的、分布广泛的信息库,基于这个巨大信息库的应用将产生同样巨量的网络日志,这些网络日志蕴含着极其丰

学位

贝叶斯网络网络日志挖掘流量预测增量学习

普适计算环境下上下文感知和感知服务研究

随着嵌入式设备和身份识别技术的广泛使用以及无线网络的普及,普适计算成为当前研究的一个热点。普适计算是一个异构、多变的分布式计算环境。如何构建一个知识共享、知识重

学位

普适计算上下文模型感知服务嵌入式设备身份识别知识表示语义推理

基于三级存储架构的嵌入式电子词典软件的设计与实现

我国的电子词典自上个世纪80年代末诞生以来得到了迅速发展，虽然只有二十年的历史，电子词典却已经成为词典家族中具有旺盛生命力的一员。电子技术的发展使得辞书的载体、查检和

学位

电子词典索引检索三级存储架构标签映射混合存储技术

α硫辛酸对阿尔茨海默病大鼠海马区Bcl-2表达的影响

本文通过对荣华二采区10

期刊

Alzheimers diseaseBcl-2alpha-lipoic acid

GML查询机制的研究

GML是开放地理信息系统协会(OpenGIS Consortium,简称OGC)制定的、基于XML的地理信息编码标准,用于空间数据在网络上的传输、存储和发布。它中立于任何厂商、任何平台,为地理

学位

可扩展标记语言XQuery地理标记语言要素GML解析GML查询路径表达式

环绕智能中感知实体及网络系统的研究与设计

环绕智能是欧洲信息社会咨询组对未来信息社会提出的新构想。它是一种智能化、人性化的电子环境,周围被嵌入式计算设备包围着。但在这种环境中,人机交互的模式从传统的以计算

学位

环绕智能网络系统通信管理

颅内血管分割算法研究

大量研究发现,在颅内血管的流体力学仿真模拟中,精确的血管数据对于实验结果非常关键,微小的数据差异可能产生很大的差距,因此如何有效地分割血管成为仿真研究过程中重要一环

学位

颅内动脉瘤流体力学仿真血管分割活动轮廓模型三维重建

WEB应用若干关键技术的研究

随着Internet的飞速发展,WEB已经渗透到各行各业当中,从商业、银行、财政、娱乐、教育到政府机构,WEB应用对人们的日常生活、工作产生了深远的影响。WEB以其生动丰富的用户界

学位

VPNWEB应用服务器缓存框架AJAX技术

PLC仿真调试软件的设计与实现

RTU(Remote Terminal Unit，远程终端单元)是构成SCADA(Supervise Control And Data Acquisition，数据采集与监控)系统的核心设备。它的作用是能对现场各种信号进行数据采集、数

学位

PLC程序仿真调试软件软件设计

基于CURE算法的相似重复记录检测技术研究

与本文相关的学术论文