论文部分内容阅读
离群点挖掘是数据挖掘领域的一项重要研究内容,目的在于发现数据中的异常知识,在实际生产、生活和科学研究中有着重要的应用价值。近年来,随着数据规模的增大和应用场景的复杂化,离群点挖掘问题面临着新的挑战。粒计算作为一种处理模糊海量信息的重要理论,已发展成为人工智能领域的一个热门研究方向。粒计算是对人类全局分析能力的一种模拟,它从不同的层次将错综复杂的问题抽象归纳为比较简单的模型粒,然后对这些简单的模型粒进行分析求解。具体地说,粒计算就是应用分组、分类、聚类等手段多层次分析问题和求解问题的理论和方法,是信息处理的一种新的理念和范式。课题针对现有离群点挖掘方法面临的若干问题,从粒计算角度出发,通过对数据的聚类、分类以及多层次分析,提出了四种不同的离群点挖掘方法。并利用实验对比的方式验证了本文所提出方法的有效性。主要研究内容如下:(1)针对目前基于聚类的离群点挖掘方法只考虑聚类最优而未对离群点挖掘进行优化的问题,同时为了有效利用数据集中的少量标记信息提高离群点挖掘的精度,提出了基于特征加权半监督聚类粒化的离群点挖掘方法。聚类粒化过程中,目标函数为不同的特征分配了自适应权重,综合考虑了聚类和离群点检测之间的相互影响,并遵循最大化标记正常点对于其所属聚簇的隶属度、最小化标记正常点对于其非所属聚簇的隶属度和最小化标记离群点对每个聚簇的隶属度的原则。通过以上半监督聚类模型,可获得数据集的模糊划分,从而诱导出每个聚簇所对应的模糊信息粒。在以上模糊信息粒框架下,根据离群点对每个模糊信息粒的隶属度均较低的原则,定义了数据点的离群度。根据每个样本的离群度,高效地挖掘出数据集中的离群点。(2)基于SVDD的离群点挖掘方法将正常数据作为训练集进行描述和建模,位于决策边界外的数据点被认为是离群点。针对SVDD模型训练集中含有的少量离群点会对决策超球面产生不利影响的问题,提出了基于单簇核PCM的SVDD离群点挖掘方法。该方法通过在核空间中对训练样本进行单簇PCM聚类粒化,得到样本的置信度。然后,将各训练样本对信息粒的置信度引入到传统的SVDD模型中,用以区分不同训练样本对训练模型的不同贡献。由于离群样本通常远离聚簇中心,具有较低的置信度,该离群点挖掘方法可减少离群样本对决策边界的负面影响。(3)为了降低高维数据训练集中离群点对一类支持向量机训练过程的不利影响,提出一种基于流形距离的模糊粒一类支持向量机模型(MD-OCSVM),用于高维数据集离群点挖掘。首先,定义一种流形距离,使得分布于同一个流形上的正常样本之间的流形距离较短,分布于流形之上的正常点与分布于流形之外的离群点之间的距离较远。在流形距离下建立了训练集的模糊粒表示,利用样本点与粒中心的流形距离给出样本的对模糊粒的隶属度,该隶属度反映了该样本点在训练过程中发挥的重要程度。由于离群点往往偏离于流形,一般具有较低的隶属度。MD-OCSVM将模糊粒信息引入到训练模型中,降低了离群点对决策边界的影响,改善了高维数据集的离群点挖掘效果。分别在模拟数据集、高维UCI数据集和故障检测数据集实验中验证了MD-OCSVM方法的有效性。(4)为克服单粒度仅能从单一视角、单一层次分析异常信息的局限性,基于多粒度理论模型提出了一种无监督的离群点挖掘模型。本文首先对数据集进行邻域粒化,构建了多粒度邻域层次模型。然后在多粒度邻域层次模型下,定义了三种新的离群特征,在多个视角下对数据点的离群特性进行描述。由于不同粒度下对数据离群特性的分析尺度和深度不同,为了实现多个视角决策的互补,进而形成对数据是否离群的综合决策,建立了基于群决策的多粒度邻域融合的模型。在决策融合过程中,遵循群体决策与个体决策最大一致性的原则,获得每个粒度在融合过程中的最优权值。最终,可以根据多粒度的群体决策得出各数据点的群体离群程度,进而提取出数据集中的离群点。最后,总结全文的主要研究工作,并提出本文工作的不足和下一步的研究内容。