基于N-Gram算法的数据清洗技术

来源 :沈阳工业大学学报 | 被引量 : 0次 | 上传用户:huimin0609
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据库中存在的大量相似重复数据,对相似重复记录的属性结构以及产生原因进行了分析,采用N-Gram算法对数据记录进行计算,得到代表每条记录属性的键值,即N-Gram值.依据该键值将数据库中的数据记录进行排序处理,建立有序的数据库,并对其中的数据记录进行相似度计算.运用排列合并的清洗思想对识别出来的相似重复数据记录进行清洗,实验结果表明,N-Gram算法有效提高了相似重复数据记录的查全率和查准率.
其他文献
一种用于航空工程项目管理的软件任光华,高全刚为建立航空工程项目统一管理标准,实现管理方法的科学化、规范化、作者研究并推出了软件WBS/CMIS(WorkBreakdownStructure/CostManagementInformationSyste...
<正> 本文提供一种全数字化的单芯同轴电缆、高速、宽动态范围的双向数据传输系统,以代替传统的多芯电缆传输系统. 该系统通过一根单芯同轴电缆,可同时双向传输以下四种不同
优质的阻燃材料在迅猛发展的建筑工业中需求量颇大,因而纸质树脂基蜂窝夹芯结构复合材料的阻燃问题就成了人们十分关注的问题.而这方面的文献报道很少.为了解决上述阻燃问题,作者
本文讨论了非稳定线性区间系统的镇定问题,利用Kharitonov和 Barmish的研究结果,在系数空间建立了相应的稳定域,并用状态反馈使非稳定的线性区间系统实现稳定,即具有稳定鲁棒性,最
为了准确地评价复杂网络的信息安全水平,设计了一个具有网络安全评价功能的GABP算法评价模型.该模型通过引入德尔菲法等方法,建立了科学的评价指标体系.基于这一体系,通过修
为了研究原位自生TiC颗粒对堆焊层组织与性能的影响,采用药芯焊丝明弧堆焊方法在Q235钢表面制备了Fe-Cr-Ti-C堆焊合金.利用X射线衍射仪、扫描电子显微镜、洛氏硬度计和湿砂磨
为了获得一种高质量的含有二十面体准晶相的准晶合金,采用金属型铸造方法制备了Mg-Zn-Y合金.利用扫描电子显微镜、能谱仪、X射线衍射仪和维氏硬度仪研究了Zn、Y元素对合金组