论文部分内容阅读
异常检测旨在从给定数据中发现那些明显偏离常规模式或表现为异常行为的数据。由于在网络入侵、医疗健康、信用欺诈、文本异常、视频监控和社会突发事件监控等领域中有着广泛应用,异常检测已成为数据挖掘的研究热点,并出现了众多异常检测算法。随着现实数据的维数越来越高,异常检测面临两个困难亟待解决:一方面,数据的高维性不仅使得异常数据难以识别,而且加剧了学习模型的复杂度;另一方面,数据维数的增加导致数据之间的欧氏距离相差很小,即高维空间中任意数据之间距离非常接近,使得数据的邻域信息难以获取。因此,如何从高维空间中有效地获取数据的邻域信息是异常检测所面临的问题。
针对以上问题,本文围绕高维数据的异常检测方法,从建立有效的空间映射机制、高效的获取邻域信息这两个方面开展研究,提出了三种高维数据的异常检测方法。这些方法包括基于哈希空间映射的高维数据异常检测方法、基于表征和重要度排序的异常数据检测方法以及基于稀疏表征的异常数据检测方法,实验分析表明这些方法有效提高了高维异常数据检测的性能。本论文主要工作和创新如下:
1.针对在高维空间中数据的异常特性难以识别的问题,本文提出了基于哈希空间映射的异常数据检测方法。该方法利用局部敏感哈希(LSH)高度的邻域保持特性,通过LSH方法得到新空间下的有效的数据相关性信息,同时融合谱聚类的方法来提高异常数据的识别率。实验表明所提出方法能够在低维空间中获得丰富的数据相关性信息,从而在降低算法复杂度的同时提高算法的精度。
2.针对高维数据中由于距离度量失效导致的邻域信息难以获取的问题,本文提出了基于表征和重要度排序的方法,该方法首先将每个数据通过其它数据进行表征,进而利用这些表征关系生成数据的关系矩阵,结合改进的PageRank重要度排序方法获得异常数据。使用数据表征的方法不需要距离计算就能获取数据之间的邻域关系,从而获得稳定的数据相关性,在多个真实数据集上的实验结果验证了该方法的有效性。
3.针对基于邻域的高维数据异常检测方法中无法自动选择近邻问题,本文提出了基于稀疏表征的高维数据异常检测算法框架。该方法通过稀疏学习技术将高维数据投影到低维空间中,并使用自表征方式探索具有代表性的邻居,之后将邻域信息转换为相似关系,在此基础上,分别利用随机游走和谱聚类这两种技术识别异常数据。该方法的优势在于能自动获取邻域关系且不需要进行参数设置,在多个真实数据集上与多种算法的对比实验表明所提出方法极大提高了算法的精度和稳定性。
针对以上问题,本文围绕高维数据的异常检测方法,从建立有效的空间映射机制、高效的获取邻域信息这两个方面开展研究,提出了三种高维数据的异常检测方法。这些方法包括基于哈希空间映射的高维数据异常检测方法、基于表征和重要度排序的异常数据检测方法以及基于稀疏表征的异常数据检测方法,实验分析表明这些方法有效提高了高维异常数据检测的性能。本论文主要工作和创新如下:
1.针对在高维空间中数据的异常特性难以识别的问题,本文提出了基于哈希空间映射的异常数据检测方法。该方法利用局部敏感哈希(LSH)高度的邻域保持特性,通过LSH方法得到新空间下的有效的数据相关性信息,同时融合谱聚类的方法来提高异常数据的识别率。实验表明所提出方法能够在低维空间中获得丰富的数据相关性信息,从而在降低算法复杂度的同时提高算法的精度。
2.针对高维数据中由于距离度量失效导致的邻域信息难以获取的问题,本文提出了基于表征和重要度排序的方法,该方法首先将每个数据通过其它数据进行表征,进而利用这些表征关系生成数据的关系矩阵,结合改进的PageRank重要度排序方法获得异常数据。使用数据表征的方法不需要距离计算就能获取数据之间的邻域关系,从而获得稳定的数据相关性,在多个真实数据集上的实验结果验证了该方法的有效性。
3.针对基于邻域的高维数据异常检测方法中无法自动选择近邻问题,本文提出了基于稀疏表征的高维数据异常检测算法框架。该方法通过稀疏学习技术将高维数据投影到低维空间中,并使用自表征方式探索具有代表性的邻居,之后将邻域信息转换为相似关系,在此基础上,分别利用随机游走和谱聚类这两种技术识别异常数据。该方法的优势在于能自动获取邻域关系且不需要进行参数设置,在多个真实数据集上与多种算法的对比实验表明所提出方法极大提高了算法的精度和稳定性。