论文部分内容阅读
随着计算机的普及和广泛应用,各行各业产生的数据越来越多,数据的维数也越来越高。挖掘隐藏在高维数据中有价值的信息已经成为各界关注的热点。离群点检测是数据挖掘的重要组成部分,旨在发现数据集中与大多数数据表现和行为不一致的数据,已经应用到信用卡欺诈、网络入侵、医疗处理、公共安全监测等诸多领域。挖掘高维数据中的离群点具有极其重要的理论与实践意义。由于高维数据分布的稀疏性,利用传统的离群点检测方法确定高维空间中离群点的效果并不理想。本文将维数约简思想融入到离群点检测中,研究了基于维数约简的离群点检测方法。由于高维数据大都具有非线性结构,本文将非线性局部线性嵌入降维方法引入到离群点检测问题中,提出了保持局部近邻关系的局部线性嵌入方法和高维空间局部线性嵌入的离群点检测方法,本文的主要研究工作如下。首先,本文介绍了数据挖掘、离群点检测以及维数约简的研究现状,详细评述了几种经典的离群点检测与维数约简方法,着重分析了局部线性嵌入方法的优点与存在的问题,并阐述了传统的离群点检测方法不能准确检测高维空间中的离群点的原因,以及论证了将高维空间中的数据映射到低维空间进行离群点检测的必要性与可行性。其次,针对局部线性嵌入对噪声敏感的问题,本文将拉普拉斯映射融入到局部线性嵌入中,提出了一种保持局部近邻关系的局部线性嵌入的非线性降维方法。利用提出的方法对模拟数据集进行实验,验证了该方法的有效性以及在保持线性结构的基础上进一步保持局部近邻关系的特性。在真实数据集的模拟实验中,我们将本文提出的方法与三种经典的降维方法进行了比较分析,验证了该方法的有效性。最后,由于离群分布在密度较低的区域,本文利用粗糙集模型刻画离群点,提出了一种基于局部线性嵌入的高维空间离群点检测方法。根据所构造的粗糙集模型,将数据集分为稠密区域与稀疏区域。在构造数据集的局部近邻图的同时构造数据集正域的局部线性近邻图。为了更有效地区分离群点,在局部近邻图中增加一个权值,尽量将稠密区域的点与稀疏区域中的点分离开来。在低维空间中采用基于最小生成树的k-近邻启发式方法来检测离群点。将本文提出的方法与四种经典的离群点检测方法在八个数据集上进行对比实验,实验结果验证了新方法的有效性。