基于信息粒的模糊聚类方法研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:liaotianeryi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据密集型时代的到来,如何有效地利用数据并释放其衍生价值变得愈发重要而现实。聚类作为一种重要的数据分析方法,人们可以通过它来挖掘数据潜在的结构,获得对数据更加细致的洞察结果,生成假设和发现规律等;也可以通过它产生天然的分类信息和实现对数据的压缩。因此,聚类问题的研究具有十分重要的意义。  本博士学位论文主要针对模糊聚类中的模糊C均值(FCM)算法,研究了如下三方面的问题:1)属性赋权的不确定性与加权模糊聚类;2)缺失值填补的不确定性与不完整数据的模糊聚类;3)数据与类原型的对偶关系及由此引出的完整数据FCM算法的扩展。并以上述问题中对不确定性因素的描述作为突破口,在信息粒的概念框架下,提出了多种聚类模型与算法,所完成的主要工作如下:  (1)针对加权模糊聚类中属性赋权的不确定性,将属性权描述为区间信息粒,并视属性权为受区间约束的变量,建立了区间加权FCM聚类模型。在类原型、隶属度和属性权三者交替迭代格式的基础上,提出了人机结合式和遗传-梯度混杂式两种模型求解算法。实验结果表明,所提出的方法能在传统的常值加权聚类的基础上起到进一步优调的作用,同时属性权的区间约束有助于避免迭代计算陷入不适宜的局部极小解。  (2)针对不完整数据聚类中缺失值填补的不确定性,将缺失值描述为区间信息粒。在视缺失值为受区间约束的变量的情况下,分析了缺失值区间填补聚类与区间加权聚类在模型结构上的相似性,并以此为基础建立了两者的类比求解框架。重点研究了将缺失值的区间型填补视作常的区间数的情况,借助区间数据集的聚类模型,结合机器学习中的核方法,提出了不完整数据的区间核FCM聚类算法,可获得具有粒特征的区间型类原型,能有效提高对不完整数据划分的准确性。  (3)仍然针对不完整数据聚类中缺失值填补的不确定性,依据不完整数据近邻样本的属性值信息,采用非参数假设检验的方法,将服从高斯分布的缺失值描述为概率信息粒。在此基础上,通过最大似然准则将缺失值的概率信息粒引入到不完整数据的FCM聚类,提出了相应的聚类模型以及类原型、隶属度和缺失值三类变量交替迭代的模型求解算法,挖掘出了存在于缺失值与类原型间的可相互表示的对偶关系。实验结果展示了缺失值的概率信息粒对不完整数据聚类所起到的有效引导作用。  (4)为了将类似于不完整数据聚类中缺失值与类原型的对偶关系引入到完整数据的FCM聚类,首先引入了受原始数据邻域信息粒监督的重构数据的概念,提出了一种让重构数据作为变量并直接参与到聚类迭代的新的FCM聚类模型与算法。并通过引入重构偏移指标,采用近似分析与实验相结合的方法研究了算法中参数的作用规律。理论与实验研究表明,在合适的参数取值下,重构数据在原始数据的基础上会有向各自的类原型靠拢的趋势,更有助于对数据类结构的捕捉。此外,还采用所提出的算法实现了对盾构施工过程数据的聚类分析,从聚类结果中隶属度的可解释性和类原型的可代表性两方面展示了算法的优越性。
其他文献
随着晶圆特征尺寸的不断减小、晶圆直径的不断增大,半导体制造过程变得越来越复杂,对半导体制造装备及其自动化水平要求也越来越高,而批间控制综合了统计过程控制与工程过程控制
在经典控制理论中,系统辨识是一个非常重要的分支,而传递函数是表示系统输入输出关系的数学模型,它即可以表示系统的动态特性,也可以作为研究系统性能的对象。随着对控制系统
在当今3D模型成为虚拟现实、游戏引擎、计算机仿真等领域的主流趋势下,三维物体问的碰撞检测问题已经成为了不可避免的问题之一。随着人们日益增加的对于虚拟场景逼真度和沉
随着社会经济的发展,人们生活水平不断提高,各种家用电器也随之增多。随之而来的是用电量的不断增加。与此同时,人们对居室照明的要求越来越高。除了满足基本的照明功能以外,人们希望通过更智能的照明控制系统来营造更美好的居室环境。因此,开展智能照明技术的研究对节约照明用电量和改善人们居室照明效果有很重要的现实意义。本文选择DALI(Digital Addressable Lighting Interface
模型预测控制(MPC)是在20世纪70年代末开始出现的一种基于模型的控制方法,已被广泛应用于石油、化工、电力和航空等工业控制领域。动态矩阵控制、模型算法控制、预估控制和内
由于状态空间模型能够方便地描述多输入多输出系统的动态响应特性,而且适用于在时间域发展和广泛应用的模型预测控制理论和设计方法,近三十年来在系统辨识研究领域受到了大量
表面形貌的表征一直是材料科学、地质学及生物医学等领域的研究热点,物品表面形貌的好坏能直接影响到使用寿命、系统性能等,因此在对样品进行表面表征时,要求测量准确,样品表
为了确保棒材的标准化包装,在线计数成为生产线上一道重要的工序。目前,棒材计数主要是靠人力完成的,这种方法容易使工人疲劳,特别是容易产生错误计数,不能保证包装数量的要求,且与
分布式发电(Distributed Generation,DG)以其发电方式灵活、能源利用率高、环境污染小等优点日益成为传统电网的有效补充,并网逆变器作为分布式电源与电网的接口,在并网发电中起着关键作用。本文以并网逆变器为研究对象,提出了abc自然坐标系(Natural Coordinates,NC)、虚拟电机(Virtual Machine,VM)的概念,通过对虚拟电机磁链的准确观测,解决分布式
我国南方的产煤区与北方相比,具有矿区规模小且分散、煤层分布复杂、产煤量少、种类多且煤质差异大等特点。这种差异性的存在,使得适用于北方煤矿企业的信息管理系统运用到南