论文部分内容阅读
聚类分析是一种常见的统计分析方法,它也是机器学习和模式识别领域一个重要的研究课题.聚类分析基于样本间的相似性将样本分成不同的组,使得同一组中的样本间相似性高,而不同组之间的样本相似性低.目前,聚类分析在数据挖掘、图像分割等领域有广泛的应用.根据不同的聚类结果,聚类分析方法可以分为硬聚类方法和软聚类方法.其中软聚类包括模糊聚类方法和证据聚类方法.特别是基于证据理论(或称为信任函数理论)的聚类方法最近受到越来越多学者的关注,这是因为证据理论被认为是更具一般性的理论框架,如在聚类问题中,其他的软聚类方法(如模糊聚类方法)得到的结果都可以看作是证据聚类方法得到结果的特例.更重要的是,不同于经典的概率理论,证据理论中的核心概念信任函数是一种非可加测度,在处理非线性、不确定性问题时有其独到之处.如在聚类分析中,有些样本分属多个不同的类都有一定的可能性或信任度,而不能肯定某个样本一定属于某个类.此时样本与类之间的隶属关系带有这种不确定性,而信任函数可以很好地表示这种不确定性,即把样本分属不同类别的可信度用信任函数表示.本文主要考虑在证据理论的框架下,探讨新的聚类分析方法.具体地讲,研究内容有以下四个方面.(1)在现有证据聚类方法的基础上,研究一种新的带约束的证据聚类方法(k-CEVCLUS方法).以往证据聚类(EVCLUS)算法和k-EVCLUS算法,都可以处理相异性数据,这些方法中一个基本假设是:样本间相似性越高,他们对应质量函数间的冲突度就越低.约束的证据聚类方法(CEVCLUS算法)考虑将先验信息融入证据聚类方法中,该方法主要考虑了成对约束的先验信息.原始的CEVCLUS方法能够得到很好的聚类结果,但是该方法只能处理小样本的数据集,而且计算的耗时长、空间复杂度高.因此,我们在这些方法的基础上研究了新的约束聚类方法,记为k-CEVCLUS方法.新提出的方法改进了原有方法的目标函数,使目标函数可以分解成每个样本对应质量函数的二次函数,从而可以通过迭代行的二次规划算法优化该目标函数.k-CEVCLUS方法通过使用新的目标函数和优化方法,进一步降低了算法的用时和空间复杂度,因此该方法能够处理大样本量的数据集(样本量为1万左右).在数值实验中我们发现,当样本量很大时,需要的约束个数也随之增加,当约束个数同样本量同一数量级时,才能达到理想的聚类效果.因此,我们研究一种约束拓展方法,当只有少量的约束给定时,该方法可以进一步改善聚类的效果.(2)在证据累积方法(EAC)的基础上,研究基于证据理论的聚类集成方法.多数情况下,聚类集成方法主要包含两个关键步骤:第一步得到一组基础划分,第二步结合基础划分得到集成的聚类结果.同经典证据累积方法一样,我们的方法在集成的第一步先通过模糊聚类方法得到的结果经硬化处理后的硬划分,作为基础划分.从硬划分出发,在证据理论框架下将其转换成一种中间表示,称这种中间表示为关系表示.在证据理论中,一般地认为得到的这一关系表示是不可靠的,可以用折扣过程对其进行预处理.然后就可以用不同的结合法则融合所有关系表示.从融合后的关系表示中提取蕴含矩阵或似然矩阵,将其视为样本间的互相关矩阵.为了能够充分利用样本间的传递性,将得到的互相关矩阵视为一个模糊关系,对其做传递闭包处理,从而得到一个模糊等价关系.将模糊的等价关系视为新的相似性数据,用能够处理相似性数据的聚类方法得到最终的结果.最后,通过实验表明该聚类集成方法的稳定性和有效性.(3)在模糊划分的基础上,研究基于证据理论的模糊聚类集成方法.在经典的聚类集成方法中,往往通过经典的聚类方法得到硬划分,并将硬划分作为基础划分.即使是通过模糊聚类方法(如模糊c-means方法)得到模糊划分,往往通过硬化处理得到硬划分作为基础划分,这样做会损失很多信息.为了能够充分利用模糊划分中的信息,我们在证据理论的框架下提出一种新的模糊聚类集成方法.在新提出方法的第一步,我们用模糊聚类方法得到一组模糊划分.对于每个模糊划分,我们用质量函数表示样本间的“相似性”.为了充分利用相关信息,我们提取了两种类型的关系表示.基于考虑的关系表示,通过结合法则得到融合的关系表示.在方法的第二步,我们考虑两种集成方法:(1)基于融合的关系表示得到样本间的互相关矩阵,将其作为模糊c-means方法的输入,得到的结果即为集成的结果;(2)基于信任的兰德指数构造一个目标函数,优化该目标函数得到一个模糊划分,作为集成的聚类结果.通过数据集上的实验表明新提出方法可以进一步提高聚类的精确度.(4)在证据聚类方法的基础上,研究新的证据聚类集成方法.不同于其他聚类集成方法,在该方法的第一步,我们通过证据聚类方法(如证据c-means方法),得到一组基础划分.在证据理论中,每个基础划分都是一个证据划分.证据划分可以表示样本和类之间的隶属关系中存在的不确定性,这种表示方法能够更好的表现数据中的聚类结构.然后我们将基础划分转换成关系表示,而不是直接结合这些基础划分.通过结合法则进行融合,得到的结果称为融合的关系表示.为了充分利用样本间的信息,在直觉的模糊关系理论基础上,将融合后的关系表示视为直觉的模糊关系,进行传递闭包处理得到直觉的模糊等价关系,再从中提取一个新的关系表示.在信任的兰德指数基础上构造一个关于新关系表示的目标函数,通过优化该目标函数,从而得到一个证据划分,作为最终的集成结果.通过模拟和真实数据集上的结果表明该方法的优势.