信任函数理论框架下新聚类分析方法的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:qhxfxfxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种常见的统计分析方法,它也是机器学习和模式识别领域一个重要的研究课题.聚类分析基于样本间的相似性将样本分成不同的组,使得同一组中的样本间相似性高,而不同组之间的样本相似性低.目前,聚类分析在数据挖掘、图像分割等领域有广泛的应用.根据不同的聚类结果,聚类分析方法可以分为硬聚类方法和软聚类方法.其中软聚类包括模糊聚类方法和证据聚类方法.特别是基于证据理论(或称为信任函数理论)的聚类方法最近受到越来越多学者的关注,这是因为证据理论被认为是更具一般性的理论框架,如在聚类问题中,其他的软聚类方法(如模糊聚类方法)得到的结果都可以看作是证据聚类方法得到结果的特例.更重要的是,不同于经典的概率理论,证据理论中的核心概念信任函数是一种非可加测度,在处理非线性、不确定性问题时有其独到之处.如在聚类分析中,有些样本分属多个不同的类都有一定的可能性或信任度,而不能肯定某个样本一定属于某个类.此时样本与类之间的隶属关系带有这种不确定性,而信任函数可以很好地表示这种不确定性,即把样本分属不同类别的可信度用信任函数表示.本文主要考虑在证据理论的框架下,探讨新的聚类分析方法.具体地讲,研究内容有以下四个方面.(1)在现有证据聚类方法的基础上,研究一种新的带约束的证据聚类方法(k-CEVCLUS方法).以往证据聚类(EVCLUS)算法和k-EVCLUS算法,都可以处理相异性数据,这些方法中一个基本假设是:样本间相似性越高,他们对应质量函数间的冲突度就越低.约束的证据聚类方法(CEVCLUS算法)考虑将先验信息融入证据聚类方法中,该方法主要考虑了成对约束的先验信息.原始的CEVCLUS方法能够得到很好的聚类结果,但是该方法只能处理小样本的数据集,而且计算的耗时长、空间复杂度高.因此,我们在这些方法的基础上研究了新的约束聚类方法,记为k-CEVCLUS方法.新提出的方法改进了原有方法的目标函数,使目标函数可以分解成每个样本对应质量函数的二次函数,从而可以通过迭代行的二次规划算法优化该目标函数.k-CEVCLUS方法通过使用新的目标函数和优化方法,进一步降低了算法的用时和空间复杂度,因此该方法能够处理大样本量的数据集(样本量为1万左右).在数值实验中我们发现,当样本量很大时,需要的约束个数也随之增加,当约束个数同样本量同一数量级时,才能达到理想的聚类效果.因此,我们研究一种约束拓展方法,当只有少量的约束给定时,该方法可以进一步改善聚类的效果.(2)在证据累积方法(EAC)的基础上,研究基于证据理论的聚类集成方法.多数情况下,聚类集成方法主要包含两个关键步骤:第一步得到一组基础划分,第二步结合基础划分得到集成的聚类结果.同经典证据累积方法一样,我们的方法在集成的第一步先通过模糊聚类方法得到的结果经硬化处理后的硬划分,作为基础划分.从硬划分出发,在证据理论框架下将其转换成一种中间表示,称这种中间表示为关系表示.在证据理论中,一般地认为得到的这一关系表示是不可靠的,可以用折扣过程对其进行预处理.然后就可以用不同的结合法则融合所有关系表示.从融合后的关系表示中提取蕴含矩阵或似然矩阵,将其视为样本间的互相关矩阵.为了能够充分利用样本间的传递性,将得到的互相关矩阵视为一个模糊关系,对其做传递闭包处理,从而得到一个模糊等价关系.将模糊的等价关系视为新的相似性数据,用能够处理相似性数据的聚类方法得到最终的结果.最后,通过实验表明该聚类集成方法的稳定性和有效性.(3)在模糊划分的基础上,研究基于证据理论的模糊聚类集成方法.在经典的聚类集成方法中,往往通过经典的聚类方法得到硬划分,并将硬划分作为基础划分.即使是通过模糊聚类方法(如模糊c-means方法)得到模糊划分,往往通过硬化处理得到硬划分作为基础划分,这样做会损失很多信息.为了能够充分利用模糊划分中的信息,我们在证据理论的框架下提出一种新的模糊聚类集成方法.在新提出方法的第一步,我们用模糊聚类方法得到一组模糊划分.对于每个模糊划分,我们用质量函数表示样本间的“相似性”.为了充分利用相关信息,我们提取了两种类型的关系表示.基于考虑的关系表示,通过结合法则得到融合的关系表示.在方法的第二步,我们考虑两种集成方法:(1)基于融合的关系表示得到样本间的互相关矩阵,将其作为模糊c-means方法的输入,得到的结果即为集成的结果;(2)基于信任的兰德指数构造一个目标函数,优化该目标函数得到一个模糊划分,作为集成的聚类结果.通过数据集上的实验表明新提出方法可以进一步提高聚类的精确度.(4)在证据聚类方法的基础上,研究新的证据聚类集成方法.不同于其他聚类集成方法,在该方法的第一步,我们通过证据聚类方法(如证据c-means方法),得到一组基础划分.在证据理论中,每个基础划分都是一个证据划分.证据划分可以表示样本和类之间的隶属关系中存在的不确定性,这种表示方法能够更好的表现数据中的聚类结构.然后我们将基础划分转换成关系表示,而不是直接结合这些基础划分.通过结合法则进行融合,得到的结果称为融合的关系表示.为了充分利用样本间的信息,在直觉的模糊关系理论基础上,将融合后的关系表示视为直觉的模糊关系,进行传递闭包处理得到直觉的模糊等价关系,再从中提取一个新的关系表示.在信任的兰德指数基础上构造一个关于新关系表示的目标函数,通过优化该目标函数,从而得到一个证据划分,作为最终的集成结果.通过模拟和真实数据集上的结果表明该方法的优势.
其他文献
海洋上层对台风的响应机制和预报模式,是国家重点基础研究2013年重要支持方向之一。台风过境期间海洋温盐的变化,是进一步揭示台风中海气相互作用过程,准确预报台风的强度、
安全、环保、节能、高速、舒适是现代重型汽车的发展方向,缓速器将会是重型汽车必不可少的配置。电涡流缓速器以其低速扭矩大、响应速度快、结构简单等优点,被广泛应用在重型
大型金属板壳结构作为飞机、船舶等大型装备的重要组成部分,其结构健康状况直接影响到装备使用安全。超声兰姆波具有对波导结构及其材料属性变化敏感的特性,可用于大尺寸板壳
绝缘栅双极型晶体管(Insulated Gate Bipolar Transistor,IGBT)是实现电能控制和转换的核心功率器件,广泛应用于电力牵引等场合,如汽车、地铁和机车等。铝(Al)金属化层是位于
中子星是天体物理研究中非常重要的研究对象,从发现至今已有50多年,在这期间,中子星研究取得了丰硕的成果。人们对中子星分类、中子星热演化、中子星最大质量、中子星半径以
Ga N基微波功率器件具有工作电压高、频率高、耐高温等特点,已经成为雷达、5G通讯等领域的关键核心元器件。随着器件设计技术和制备工艺的不断突破和日趋完善,其性能参数随工
当前,由于人口老龄化、疾病慢性化、医保目录范围扩大等因素导致我国医疗费用快速增长。同时,整体经济下行、企业负担加重,也使医保筹资能力难以延续之前快速增长的态势。医
本文研究退化型非线性发展方程的初边值问题,包括有限阶退化半线性抛物方程和拟抛物方程解的整体存在性、渐近估计和爆破,以及带对数非线性项的无穷阶退化半线性抛物方程和拟
进入新世纪,随着教育的发展,教育公平已经成为基础教育领域中主导的价值诉求,教育公平问题体现在城乡、区域、性别、阶层等多方面,其中教育的性别公平一直是教育公平非常关注
壳聚糖,作为唯一的碱性多糖,因其生物相容性良好、可生物降解、抗菌性良好、无免疫反应等优良性能,已被广泛应用于多种组织工程领域。然而,壳聚糖不溶于水和一般有机溶剂,易