【摘 要】
:
聚类分析的目标是在相似的基础上收集数据进行分类,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为算法的选择取决于数据的类型、聚类的目的和应用
论文部分内容阅读
聚类分析的目标是在相似的基础上收集数据进行分类,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为算法的选择取决于数据的类型、聚类的目的和应用方向。例如k-means、BIRCH、CURE、DBSCAN、COBWEB等,对于相同的数据集,使用不同的聚类算法可能有不同的划分结果。FCM算法是目前应用最为广泛的聚类算法。研究发现,传统FCM算法存在两个不足:第一,算法从样本点出发,通过优化目标函数计算各样本点对于类中心的隶属度,从而达到自动分类的目的,如果初始值选择不当就会导致算法收敛到局部极小点;第二,聚类分析处理数据样本的各维属性贡献度是不一样的,FCM算法采用标准的欧式距离进行计算忽略了属性权重值对聚类结果的影响。因此从本质上来讲,FCM算法是一种局部搜索的优化算法。基于以上分析,论文提出了基于属性权重的混合聚类算法。主要研究内容如下:(1)将“粒子演化”策略结合“粒子分组及重组”引入粒子群算法,得到改进的粒子群优化算法,为属性权重的求取提供了算法基础。(2)属性权重学习算法实现:在改进的粒子群优化算法中,将粒子的位置向量作为属性权重向量,选用交叉熵作为属性权重评价函数,利用梯度下降法极小化属性权重评价函数,通过迭代最终得到一组最优的属性权重值。(3)混合聚类算法实现:将遗传算法和模拟退火算法相结合,引入FCM聚类算法,初始聚类中心映射成染色体,目标函数作为遗传算法的适应度函数,经过选择、交叉和变异,运用FCM聚类算法计算聚类中心、隶属度及个体适应度值,利用模拟退火算法以一定概率接受新个体,通过迭代,最终得到全局最优解。
其他文献
NPR(非真实感绘制)是把绘画艺术和计算机技术相结合研究的领域,它专注于抽象与加工真实的场景,使人们能够获得更深刻、更重要、更直观的印象,因此已在教育、艺术等领域有了广泛
随着社会发展,环境保护刻不容缓。环境保护智能化、网络化是未来环境保护工作的重点。环保信息化势在必行,而物联网的迅速发展,为环境保护提供了新技术、新方法和新思路。基于物
近年来,云计算作为一种新的高性能计算模式成为广大研究学者的研究热点,各大公司也纷纷推出自己的云平台,如加利福尼亚大学研究的Eucalyptus, Apache基金会的Hadoop平台、以
图像分割是数字图像处理的重要研究方向,许许多多的图像需要对其进行图像分割,提取目标图像之后才能进行下一步的处理与信息提取。图像分割的方法也得到了如火如荼的发展。但是
近年来,随着互联网的发展和企业信息化进程的推进,国内各主要钢厂投入了大量的人力物力都先后建立起数量众多的信息系统。这些信息系统组成了一个信息库,通常信息库由很多信息源
无线传感器网络具有节点分布稠密、能量有限、节点计算能力和存储空间有限、容易遭受安全攻击等特点。面临的威胁不单是外部攻击者对网络发起的攻击,网络内部节点也有可能被捕
近年来,随着计算机的普及和应用技术的发展,人们获取数据的能力得到了极大提高。数据流作为数据挖掘的一种新的研究内容,已经出现在各种应用领域。区别于传统的存储在磁盘上的静
集成学习系统是近年来机器学习和模式识别领域中的研究热点。由于其在处理维数高、样本少和数据结构复杂的这类问题中拥有独特的优势,最近已有越来越多针对基因微阵列数据的研
从行为心理学发展而来,介于监督学习和非监督学习的强化学习算法,目前是机器学习研究领域的热点,越来越受到关注。现有的强化学习算法如Sarsa学习算法、Q学习算法等需要大量的存
随着Internet的高速发展,Web上承载的网页数据也与日俱增。一个普通网页上包含的数据一般可以分成两部分:内容块和噪声块,其中噪声块主要包括网页顶部或侧边的导航栏、四周的