基于马氏距离的模糊聚类算法研究

来源 :兰州交通大学 | 被引量 : 2次 | 上传用户:goodlyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息化时代,各领域产生的数据量急剧增大,需要进行有效地数据分析.聚类分析一方面能用作分类预处理,另一方面能用作数据挖掘,是机器学习中较快出现最新算法的领域之一,始终可以从某个角度设计新算法.现实世界中许多事物的分类界限尚不清楚,这种不明确的分类广泛存在于人们的理解和辨识过程中.模糊聚类分析是解决不分明边界划分问题的重要手段,它扩展了样本的隶属范围,给出了聚类划分的模糊性,使得聚类分析的结果更符合现实意义,因此模糊聚类成为聚类研究领域的热点之一.基于马氏距离的模糊聚类算法是使用马氏距离Mahalanobis代替FCM算法中的欧氏距离.马氏距离不受属性维度影响,解决了使用欧氏距离在处理属性相关的数据时,误分率增加的问题.由于基于马氏距离的模糊聚类算法被广泛使用,其优化问题值得进一步研究.本文针对基于马氏距离的模糊聚类算法对初始聚类中心敏感,收敛速度慢的问题,提出了一种新的初始化方法.首先,在一定范围的类别中,通过启发式搜索聚类中心,然后使用kmeans算法获得初始聚类中心.经过人工数据和标准数据的测试,结果表明在多维数据上,新的初始化方法能迅速搜索到较为合理的初始聚类中心.为了提高马氏距离模糊聚类算法的聚类精度,避免陷入局部最优解,实现聚类数自适应,本文构造了一种有效性指标的度量,结合了类中的紧致性、类之间的分离度以及类之间的清晰度.新的有效性指标含有马氏距离中的协方差因子,将数据集模糊划分与几何结构结合,可以有效指导聚类.在此基础之上,将新的初始化法与新的有效性指标结合到基于马氏距离的模糊聚类算法中,配合使用合并聚类中心方法,实现了簇数自适应,使得算法不需要给出簇的数量,并且在通过人工数据和标准数据的测试之后,结果表明,经过优化后的基于马氏距离的模糊聚类算法HDM-FCM比未经优化的基于马氏距离的模糊聚类算法M-FCM聚类精度高,起到了全局优化作用.最后,论文研究了模糊聚类算法的加权参数值对聚类结果的影响,通过理论分析与决策选取的方式得到了适用于新算法HDM-FCM的加权参数值.另外,本文从智能算法优化的角度出发,结合粒子群优化算法PSO,使得基于马氏距离的模糊聚类算法得到全局优化,并通过UCI数据集实验进行了验证,该算法解决了马氏距离模糊聚类对初始值敏感,易陷入局部最优解的缺陷.
其他文献
<正>"人类的发展到现在,从猿猴到直立行走再到创造今天灿烂的人类文明,中间的发展机制适用于达尔文发现的进化论。那么海上风电的发展,是不是也遵循某种理论呢?"明阳智慧能源
目的:探讨胰腺损伤(Pancreatic trauma,PT)的诊断和治疗方法。方法:回顾性分析吉林大学中日联谊医院自2006年11月至2011年11月收治的18例胰腺损伤患者的临床资料。18胰腺损伤患者
低山丘陵区域以多样的空间变化特征、良好的生态环境和丰富的自然资源逐渐成为新兴旅游度假目的地,由此也带来了低山丘陵型度假区项目的规划设计热潮。但是目前相关规划设计多以设计师的主观经验判断为主,缺乏客观、科学、适宜的分析方法和规划设计手段。基于此,本文选择登封闲居谷低山丘陵型度假区作为规划设计研究对象,探索以适宜性理念为基础的分析方法和规划设计对策,并开展实践研究。闲居谷度假区位于河南省登封市东北部,
随着对可靠和高效能源需求的不断增加,需继续推动能源储存和转换设备新材料的发展。质子交换膜燃料电池(PEMFCs)因其快速启动、高能量密度和低污染物排放而作为重要的能源储
武汉大学哲学学院教授、易学与中国哲学史研究著名专家萧汉明先生,于2011年1月18日下午2时在云南昆明寓所因突发心脏病逝世,享年71岁。
目的探讨稳心颗粒治疗慢性心律失常的临床效果。方法选择120例慢性心律失常病人分为对照组和观察组进行治疗,观察组采用稳心颗粒治疗,对照组采用阿司匹林肠溶片和倍他乐克及
本文选取沈阳市为严寒地区的代表城市,模拟了该市某办公楼的太阳能—土壤源热泵系统。由于严寒地区建筑物的全年总热负荷要比建筑物总冷负荷大,这就间接的造成了系统向土壤取
在民俗摄影中,民俗与摄影、民俗与摄影家之间形成一种相辅相成的关系。摄影传承保护了民俗,促进了民俗的发展,民俗增加摄影创作的题材,开辟摄影创作的新天地;民俗提升摄影家
密码学中所涉及的函数包括布尔函数和向量值函数,这两类函数的安全性指标包括差分一致性和非线性度等。构造密码学性质良好的低差分一致性函数是密码学中的热点问题。构造了
阐述了海带的营养特点、功能性作用以及与粮食制品的加工、开发技术