相似重复记录相关论文
为了保证机场停机坪的运行效率,提高航班保障数据的质量,需要对该数据集进行数据清洗。本文通过分析航班保障数据的特点,明确了清......
在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为......
随着信息技术的飞速发展,决策人员在进行决策分析时对各方面信息和数据的依赖性越来越强,于是在数据库的基础上产生了满足决策分析所......
经过多年的信息化建设,许多组织机构在不同历史时期建立了各种不同的管理信息系统,积累了大量的历史数据。但由于这些系统设计之初没......
当前各行业对安防报警设备的需求量越来越大,安防行业的结构化数据呈爆发式增长,同时也存在许多脏数据,尤其是相似重复记录,为数据......
摘要:在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有......
针对数据库中存在的大量相似重复数据,对相似重复记录的属性结构以及产生原因进行了分析,采用N-Gram算法对数据记录进行计算,得到......
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集......
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复......
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩......
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率......
在分析基本近邻排序算法SNM的基础上,给出排序关键字规格化处理、采用大小可伸缩滑动窗口以及为关键属性分配权重等改进措施.实践......
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对......
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率......
相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并......
提出了一种基于同级属性的重复记录检测方法。首先给出了同级属性的判断方式,然后通过查找数据集中的同级属性,来缩减数据集中需要计......
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的......
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了......
相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定......
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象......
大数据集相似重复记录检测和识别中,数据源组成复杂、表征数据记录的特征属性过多,因而检测精度不高、执行检测的代价过大。针对这些......
本文提出一种基于遗传神经网络的相似重复记录检测方法,充分利用了神经网络的非线性映射和遗传算法的全局优化特性,将基于学习的思......
描述网络教学的数据仓库中包含了从各种数据源导入的大量数据,数据的质量问题会直接影响教学评价的效果。针对学生重复信息的处理,......
介绍数据清洗与相似重复记录检测算法的相关概念以及相似重复记录的清洗原理。对基本近邻排序算法SNM进行了深入分析和研究,指出其......
相似记录检测已成为数据清洗的一个重要分支,也是消除数据冗余提高数据质量的一个重要途径,在数据统计、数据分析、数据仓库、人工......
异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一.提出在源数据库中进行第一次......
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见......
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法 SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行......
如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基......
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据。介绍了该问题的流行算法—多趟近邻排序算法M......
大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空......
摘 要:信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁......
数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记......
检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了......
为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进......
提出了一种基于信息增益选择排序属性的消除汉语相似重复记录的方法。其中,记录之间的匹配方法考虑了汉语的缩写和输入错误。实验......
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先......
针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。......
"相似重复记录检测"是数据清洗要解决的主要问题之一,对于提高数据质量及决策可靠性起到关键作用。编写SQL存储过程脚本实现了一种相......
要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录......
数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的......
为实现相似重复记录的检测,提出一种基于蚁群算法特征选择的分类检测方法。将相似重复记录检测看成二分类问题,定义了字符串型、枚......
检测相似重复记录是信息集成中的关键任务之一,尽管已经提出了各种检测相似重复记录的方法,但字符串匹配算法是这些检测方法中的核......
提出一种利用汉字机内编码特点的相似重复记录相似度计算算法,并对Apriori算法进行了改进。利用改进后的Apriori算法获取数据库记......
客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可......
对CURE算法进行改进,将其应用到相似重复记录的检测。提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样......
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数......
针对在基于字符串匹配的相似重复记录识别中,属性权值确定主观性太强的问题,提出一种模糊综合评判获取属性权值的方法。采用多用户......
数据分块有助于降低大规模数据中实体分辨的计算复杂度,但现有算法存在效能和效率难以平衡的问题。为此,在标签传播的基础上设计数......