论文部分内容阅读
数据集中的离群点是指那些偏离常规数据对象的数据点,它们表现为与常规数据的产生机制完全不同。离群点可能蕴含着重要的信息,如在信用卡欺诈行为、通信盗用行为、网络入侵行为等领域中离群点是数据分析的主要对象;在疾病诊断、天文观察等研究领域,离群对象可能给予我们新的视角,导致新理论或新应用的出现。离群挖掘就是利用统计学、机器学习、智能计算、可视化等技术来发现数据集中的离群点,供用户进行分析和研究。离群挖掘具有重要的学术意义和广泛的应用前景。面对日益复杂的大型高维数据集,如何迅速有效地发现并处理异常行为是一个具有挑战性的问题。聚类结构是数据在形成过程中所体现出来的一种常见形式,数据不同类别之间具有较明显的特征差异。与传统的聚类算法相比,谱聚类具有能在任意形状的样本空间上聚类,且收敛于全局最优解的特点,因此近年来得到了广泛应用。云模型是在概率论和模糊数学理论两者的基础之上形成的定性概念和其定量表示之间相互转换的模型。其中的正态云模型将实际应用中不符合正态分布严格定义的分布纳入泛正态分布的范畴。数据集中的离群点之所以会有离群行为的产生,是因为体现该离群点的各个属性字段或者属性字段的组合的取值和常规数据不同。在检测到这些离群点之后,分析其离群的行为以及对其离群行为作出解释,不仅有助于加深我们对数据集的理解,还可以帮助我们提高在新产生的数据集上检测离群数据的效果和效率。本论文将谱聚类方法和云模型理论用于发现数据集中的离群点,同时对离群点的离群行为进行分析和解释。主要研究工作和成果如下:(1)针对复杂数据集的聚类问题,提出一种改进的谱聚类算法。该算法引入与密度有关的自适应邻居规模参数更精确地计算对象间的相似性,实现更精确的聚类。基于该算法获得的稳定聚类能够有效地检测离群点。(2)提出一种基于谱聚类的数据集聚类分析与离群检测算法。该算法通过计算不同聚类数目下的动态有效性指标来自动确定数据集的最优聚类数,然后计算“小聚类”的成员的局部离群因子,并根据该局部离群因子确定该成员是否是离群点。(3)将云模型中云滴对于云模型的隶属度概念与数据点在数据集中的离群度相结合,提出一种基于云模型的离群数据检测算法。该算法首先计算数据对象在各个属性字段上的离群度,再计算数据对象在全属性集上的离群度,最后根据离群度的大小查找出数据集中的离群数据。(4)针对当前离群挖掘主要集中于如何检测离群点,而忽视了对离群点产生原因和离群行为的分析,论文提出一种查找离群点的离群行为子空间和关键离群行为子空间的算法。引入“强离群释义空间”和“弱离群释义空间”的概念,并提出一种检测离群点离群释义空间的算法。