相似重复数据相关论文
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了......
目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方......
针对网格聚类的特点,将其与MapReduce编程模型相结合,实现动车组海量数据中相似重复记录的清洗.Map函数判断每条记录所属的网格,并......
数据清洗是数据分析、数据挖掘等研究的起点。本文对数据清洗的研究进行了综述。首先阐述了数据清洗与数据质量的关系,然后说明了......
各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、......
针对半结构化数据XML在数据清理中的重要性,研究了如何清理XML相似重复数据,主要工作有:提出一种有效的XML相似重复数据清理方法,......
船舶状态数据中包含了大量有重要价值的信息,针对船舶状态数据的数据挖掘工作可以为智慧水运的发展做出有力支持。然而这些数据中......
随着信息技术的飞速发展,数据以惊人的速度产生并积累下来,大数据时代已经来临,数据作为继石油之后的又一个重要战略资源,在医疗、......