论文部分内容阅读
进入21世纪,计算机网络、电子商务以及物联网等信息技术快速发展,无论是IT公司内部,还是整个信息网络,信息的产生均出现爆炸式的增长。但是信息量的增多并不意味着信息价值的提高。面对如此庞大的信息量,没有价值的信息往往远多于真正有价值的信息,也就是说信息的价值很容易被淹没在海量信息中而失去它存在的意义。 本文主要研究如何从海量、多数据源中检测出那些描述同一个物理实体的相似记录。在对多源信息进行融合以及后期的数据挖掘和数据分析时,由于每个数据源所采用的数据格式、表示方式、数据定义等的不同,对应的同一事物的描述就会有不同的表示。如果对这些同一事物的描述记录不加处理,而是简单地存储到一起,不仅会造成存储信息的冗余、存储空间的浪费,也将使得从原始数据中挖掘有用信息、分析问题和效率带来不必要的开销。本文从实际工程数据出发,针对数据记录的高维、数据量大的特点进行相似重复记录的相关研究。 本文的研究主要包括两个方面的内容:第一,记录关键属性选择。每条记录包含有多个属性维,有些属性对描述记录起关键作用,有的则没有作用,甚至起负面作用。从数据挖掘主成分分析的角度出发,结合信息论的相关内容,提出统一互相信息方法,从高维属性中选择表征记录实体的关键属性,过滤噪音属性,降低记录维度,从而提高检测准确率和效率;第二,经典的SNM算法在相似重复记录检测中取得了很好的效果,但是,在高维、大数据的背景下,SNM算法有两个明显的不足:算法的本质是将记录投影在一维空间,但随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大;数据量大的情况下由于涉及到数据记录的排序,必然导致时间效率的降低。本文根据R-树索引和聚类思想,通过构建R-树保留待检测记录的空间特性,利用聚类,将潜在的相似记录聚合在叶结点中,减少相似记录间的比较次数。同时,为了避免大量属性空值对记录相似性检测的影响,改进了传统的基于编辑距离的记录相似度判定方法。 最后,在从实际工程当中提取部分数据,针对本文算法构造相应的训练集和测试集,通过在不同维度下记录检测在时间效率和准确率方面的对比,验证本文算法的有效性。