基于可变滑动窗口的相似重复记录检测算法研究与设计

来源 :江苏大学 | 被引量 : 0次 | 上传用户：mhb0512

【摘要】

：

随着信息技术的迅速发展，大量的数据不断涌现，不可避免的会引发质量问题，数据清洗是提高数据质量的重要手段，而相似重复记录检测是数据清洗研究的关键技术，因此对相似重复记录检测

【作者】

：

周典瑞

【机构】

：

江苏大学

【出处】

：

江苏大学

【发表日期】

：

2013年期

【关键词】

：

相似重复记录检测算法可变滑动窗口编辑距离时间效率等级加权法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的迅速发展，大量的数据不断涌现，不可避免的会引发质量问题，数据清洗是提高数据质量的重要手段，而相似重复记录检测是数据清洗研究的关键技术，因此对相似重复记录检测的研究具有重要意义。诸多学者对相似重复记录的检测算法做了大量研究，其中尤以基于滑动窗口的算法较为有效。该算法依据相似重复记录邻近的原理，将检测记录的比较记录数限制在有限的窗口数目内，从而大大提高检测效率。针对算法平等对待各字段和窗口大小设置没有统一标准的不足，论文研究了基于可变滑动窗口的相似重复记录检测算法。　　论文研究的主要内容如下:　　针对传统检测算法的低查准率、低查全率以及时间效率低的问题，论文提出基于可变滑动窗口的相似重复记录检测算法。首先通过综合加权法科学地计算属性的权重向量即:采用统计加权法计算字段的统计向量S;采用等级加权法计算字段的经验向量G;结合经验向量和统计向量计算权重向量W。然后给出确定存放相似重复记录集的可变滑动窗口大小的计算公式，通过计算相似重复记录之间的距离确定了窗口大小的上界;可变滑动窗口通过对相似重复记录进行聚类，解决了基于滑动窗口检测算法低查准率的问题。记录间的相似性判断首先通过使用编辑距离算法计算各字段的相似性，然后结合字段权重向量计算记录间的相似性。　　针对传统编辑距离算法在基于语义的中文匹配方面的不足，论文提出基于语义的编辑距离算法。该算法利用中文分词算法对字段进行切分，以语义词组为单位计算字段的相似性，其同义替换的特点提高了检测精度。同时，采用基于字符串长度的过滤方法减少不必要的编辑距离计算，节省了检测时间，提高了检测效率。再通过采用多线程并发技术代替多轮次检测算法，提高了检测的时间效率。　　论文最后结合实际的应用数据，测试了算法的有效性，并对检测结果进行详细分析。实验结果表明论文提出的算法提高了海量数据中相似重复记录检测的查准率、查全率和时间效率。

其他文献

Timed-Release Encryption技术应用研究

Timed-Release Encryption（TRE，译作“时释性加密”）的目标是“发送一个消息给未来”[1]，即发送者加密一个消息，发送给接收者，接收者只有在指定的发布时间到达的时候才能解密这个消

学位

密码学应用时释性加密电子投票公钥可搜索加密双线性对

电子印章系统的设计与实现

随着军队信息化的建设发展，电子公文在网络间传输更需要唯一、合法，防非法复制、防非法篡改且可追溯，因此，本文研究设计了一个适用于军队办公环境的电子印章系统，在网络环境下实现

学位

水印嵌入水印提取算法数字签名软件接口安全认证

面向领域的Web信息自动化抽取系统设计与实现

随着互联网技术的迅速发展,社会各行各业都在通过网络与外界交互信息,Web信息呈显海量和多元化,并且仍在急剧增长。在越来越多的实际应用需要从Web中抽取有价值的信息加以利

学位

Web信息抽取Java面向领域DOM树模型kNN

一种面向时间不确定性问题的故障诊断方法研究

故障诊断是一种利用故障信息之间的逻辑关系和故障机理联合分析而进行故障的辨识与定位的技术。建立合理的诊断模型以及消除诊断过程中的不确定性问题带来的故障扰动,一直是

学位

时间贝叶斯Petri网故障诊断不确定性问题模糊时间区间支持度函数

林分生长三维建模及动态模拟

本文旨在对林分的三维建模方法进行研究,并实现林分生长的可视化系统,为森林资源的可视化模拟和林区的虚拟规划提供应用软件平台、为森林的生产和经营提供有价值的信息和参考

学位

树木建模特征参数地表建模林分建模林分可视化

基于决策树的移动设备中身份验证研究

在这个数字信息飞速发展的今天,移动设备也得到快速地普及。以往仅仅输入密码的认证方法极易受到网络钓鱼和按键记录软件的攻击,并且移动设备极易丢失、被窃或者被别的用户使

学位

隐式身份验证行为习惯移动设备身份识别

手机拍摄的场景图像中的文字定位与识别研究

移动终端设备的迅速发展和普及，使人们通过手机或Pad获取周围信息成为可能。传统的信息获取方式是通过用户输入看到的周围环境中的文字来获得相应结果，而下一代的人机交互将通

学位

场景图像文字定位字符识别手机拍摄

基于虚拟化技术的嵌入式系统安全保证研究

借助信息化与嵌入式系统的发展，企业向社会提供种类丰富的服务，这些服务需要建立在大量的嵌入式硬件平台和数目庞大的软件系统之上。在嵌入式系统的运行过程中存在各种侵非法、

学位

嵌入式系统虚拟化技术安全增强可用性

基于OpenGL的矿井巷道的可视化研究

虚拟现实技术(Virtual Reality,简称VR)是近些年来高速发展的新兴技术,是对人类有巨大影响的高新技术之一。目前,已被广泛的应用到各个领域,例如,军事、建筑、航天以及医疗和

学位

矿井巷道虚拟现实分段贝塞尔曲线OpenGL纹理贴图

基于B/S模式数据库加密技术研究

随着当今信息技术的飞速发展，由此而引起的信息安全问题已经成为人们关注的热点问题，而数据库安全问题是信息安全的一个重要方面。数据库安全技术在社会的各个方面得到了广泛的

学位

数据库安全AES算法CPK技术B/S模式密钥管理方案加密技术

基于可变滑动窗口的相似重复记录检测算法研究与设计

与本文相关的学术论文