基于可变滑动窗口的相似重复记录检测算法研究与设计

来源 :江苏大学 | 被引量 : 0次 | 上传用户:mhb0512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,大量的数据不断涌现,不可避免的会引发质量问题,数据清洗是提高数据质量的重要手段,而相似重复记录检测是数据清洗研究的关键技术,因此对相似重复记录检测的研究具有重要意义。诸多学者对相似重复记录的检测算法做了大量研究,其中尤以基于滑动窗口的算法较为有效。该算法依据相似重复记录邻近的原理,将检测记录的比较记录数限制在有限的窗口数目内,从而大大提高检测效率。针对算法平等对待各字段和窗口大小设置没有统一标准的不足,论文研究了基于可变滑动窗口的相似重复记录检测算法。   论文研究的主要内容如下:   针对传统检测算法的低查准率、低查全率以及时间效率低的问题,论文提出基于可变滑动窗口的相似重复记录检测算法。首先通过综合加权法科学地计算属性的权重向量即:采用统计加权法计算字段的统计向量S;采用等级加权法计算字段的经验向量G;结合经验向量和统计向量计算权重向量W。然后给出确定存放相似重复记录集的可变滑动窗口大小的计算公式,通过计算相似重复记录之间的距离确定了窗口大小的上界;可变滑动窗口通过对相似重复记录进行聚类,解决了基于滑动窗口检测算法低查准率的问题。记录间的相似性判断首先通过使用编辑距离算法计算各字段的相似性,然后结合字段权重向量计算记录间的相似性。   针对传统编辑距离算法在基于语义的中文匹配方面的不足,论文提出基于语义的编辑距离算法。该算法利用中文分词算法对字段进行切分,以语义词组为单位计算字段的相似性,其同义替换的特点提高了检测精度。同时,采用基于字符串长度的过滤方法减少不必要的编辑距离计算,节省了检测时间,提高了检测效率。再通过采用多线程并发技术代替多轮次检测算法,提高了检测的时间效率。   论文最后结合实际的应用数据,测试了算法的有效性,并对检测结果进行详细分析。实验结果表明论文提出的算法提高了海量数据中相似重复记录检测的查准率、查全率和时间效率。
其他文献
Timed-Release Encryption(TRE,译作“时释性加密”)的目标是“发送一个消息给未来”[1],即发送者加密一个消息,发送给接收者,接收者只有在指定的发布时间到达的时候才能解密这个消
随着军队信息化的建设发展,电子公文在网络间传输更需要唯一、合法,防非法复制、防非法篡改且可追溯,因此,本文研究设计了一个适用于军队办公环境的电子印章系统,在网络环境下实现
随着互联网技术的迅速发展,社会各行各业都在通过网络与外界交互信息,Web信息呈显海量和多元化,并且仍在急剧增长。在越来越多的实际应用需要从Web中抽取有价值的信息加以利
故障诊断是一种利用故障信息之间的逻辑关系和故障机理联合分析而进行故障的辨识与定位的技术。建立合理的诊断模型以及消除诊断过程中的不确定性问题带来的故障扰动,一直是
本文旨在对林分的三维建模方法进行研究,并实现林分生长的可视化系统,为森林资源的可视化模拟和林区的虚拟规划提供应用软件平台、为森林的生产和经营提供有价值的信息和参考
在这个数字信息飞速发展的今天,移动设备也得到快速地普及。以往仅仅输入密码的认证方法极易受到网络钓鱼和按键记录软件的攻击,并且移动设备极易丢失、被窃或者被别的用户使
移动终端设备的迅速发展和普及,使人们通过手机或Pad获取周围信息成为可能。传统的信息获取方式是通过用户输入看到的周围环境中的文字来获得相应结果,而下一代的人机交互将通
借助信息化与嵌入式系统的发展,企业向社会提供种类丰富的服务,这些服务需要建立在大量的嵌入式硬件平台和数目庞大的软件系统之上。在嵌入式系统的运行过程中存在各种侵非法、
虚拟现实技术(Virtual Reality,简称VR)是近些年来高速发展的新兴技术,是对人类有巨大影响的高新技术之一。目前,已被广泛的应用到各个领域,例如,军事、建筑、航天以及医疗和
随着当今信息技术的飞速发展,由此而引起的信息安全问题已经成为人们关注的热点问题,而数据库安全问题是信息安全的一个重要方面。数据库安全技术在社会的各个方面得到了广泛的