论文部分内容阅读
近年来,随着计算机技术的飞速发展和各个领域信息化建设成就的提高,各行各业都聚集了海量的有价值的数据资源,这些数据往往具有缺失、异构、噪声和高维等特点。由于数据中含有大量的冗余特征和重复或者异常的数据点,特征和实例数量急剧上升,这将大大降低数据挖掘算法的效率和准确性。为了在杂乱无章的数据中获取有价值的信息,改善数据挖掘的性能,增强计算机对数据的理解性和学习效果,研究高维数据预处理方法具有十分重要的意义。 异常检测是预处理的研究方向之一,本文以频度属性的数据为研究对象,提出一种基于超图模型的频度数据异常检测方法。本文主要工作包括: 首先,针对基于距离的异常定义方法会丢失属性差异信息和数据点差异信息的问题,在分析异常点分布特点的基础上,给出一种基于属性加权的距离定义方法,该方法通过统计属性在数据点中的比重和异常属性在整体数据中的分布信息度量属性的差异。在利用相似度度量数据点之间差异信息的基础上,给出一种距离和相似度结合的异常定义方法,然后根据这种定义,提出了一种基于稠密子图划分的频度属性数据的异常检测模型。 其次,结合文本数据特点,在稠密子图划分思想的基础上,给出了频度属性的加权方法和超图构建方法,并设计了基于支持度框架的孤立文本判断方法。以共享反转K近邻的方法保留文本局部距离信息,结合余弦相似度描述文本之间关系,设计了基于频度属性数据异常检测的孤立文本剔除方案。 最后,分析了机械新颖专利的领域特征分布,给出新颖专利的定义,并将频度属性数据异常检测方法应用于新颖专利发现过程。并以洒水车的新颖专利发现过程为例,验证其方法的可行性。