论文部分内容阅读
离群点检测主要应用于数据清洗与数挖掘两个方面,其作用就是发现数据的“小众模式”,即数据集中显著不同于其它数据的对象。在现实中,一个人的噪音可能是另一个人的信号。在很多应用中,例外事件常常比普通事件更有趣、也更有研究价值,因此离群点数据的检测和分析是一项重要且有意义的研究工作。但现有的离群点检测算法仅能识别可疑数据,不能确定是否是“有意义”的离群点,离群点检测算法在高维数据挖掘过程中性能有所下降。因此本文针对这些问题进行了探讨和研究。首先,本文从离群点检测的现实意义、算法、应用领域等各个方面对离群点检测问题进行了综述,分析了现实数据存在的问题,总结了针对不同数据问题所采用的处理方法。针对当前离群点检测算法只能识别可疑数据,不能识别出是否是“有意义”的离群点这一缺陷,提出采用二次挖掘方法与模型法区分“噪声”与“有意义”离群点。其次,论文对离群点挖掘技术进行了介绍,总结了当前离群点挖掘技术:研究了基于近邻的离群点挖掘算法,对基于近邻的DB(p,D)-离群点挖掘算法,k-近邻算法(KNN)及LOF(Local Outlier Factor)算法的优缺点进行了比较:针对高维数据之间的距离尺度和区域密度不再具有直观的意义及算法挖掘的正确率下降等问题,本文采用基于奇异值分解的方法约减数据维度,实现高维数据到低维空间的映射,然后再用k-近邻法及LOF算法进行离群点的挖掘。然后,将基于奇异值预处理的离群点挖掘法与直接运用离群点挖掘算法进行离群点挖掘的检测率、误报率及时间代价进行比较,挖掘结果的正确率明显提高,误报率及时间代价相对较小。文中对二次挖掘法与模型法进行了仿真实验。最后实现了一个离群点挖掘系统,其中集成了DB(p,D)-离群点检测算法、基于密度的局部离群点因子检测算法、k-近邻的离群点检测算法、基于奇异值分解的数据预处理及离群点检测算法,并对离群点挖掘的结果运用平行坐标图进行合理性分析。