模糊C均值与K均值聚类算法及其并行化

被引量 : 0次 | 上传用户:zyf008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘理论中重要的研究内容之一,聚类算法主要分为软聚类和硬聚类两大类算法,模糊C均值聚类是经典的软聚类算法,K均值聚类是经典的硬聚类算法,两大类算法均被广泛应用在模式识别、图像处理、医学研究等领域。本文针对模糊C均值聚类算法和K均值聚类算法存在的抗噪性能差、选取初始聚类中心为噪声数据时容易陷入局部极值等问题,进行了较深入的研究,主要研究成果如下:(1)针对模糊C均值聚类算法抗噪性能差的问题,给出了一种利用模糊熵约束的模糊C均值聚类算法。该算法通过引入模糊熵,对目标函数进行了重新定义,并对新的目标函数进行推导,给出了新的隶属度求解公式,可有效地抑制噪声数据对聚类中心的影响;采用UCI数据集,实验验证了该算法有效地提高了模糊聚类的准确率和抗噪性。(2)针对K均值聚类算法容易选到噪声数据使算法迭代次数增多且容易陷入局部极值等问题,给出了一种基于平均值和H权值的K均值聚类算法。该算法首先根据平均值理论,给出了选取初始聚类中心的新方法,有效地降低了算法迭代次数,避免了算法容易陷入局部极值的缺陷;其次根据数据集中每个样本对聚类的影响程度不同,通过引入H权值,重新定义了欧式距离,更新了K均值聚类算法的迭代公式;最后采用UCI数据集,实验验证了该算法有效地提高了K均值聚类的准确性和抗噪性。(3)在集群环境下,给出了一种基于平均值和H权值的K均值并行化算法。该K均值算法首先将数据集以水平划分方式分配给各个节点,在各个节点上计算数据子集中相同分量之和,并将其和上传服务节点。服务节点利用平均值方法,计算初始聚类中心,并将其下传至各个节点;其次各节点采用H权值的K均值聚类算法迭代公式,对数据子集进行归类划分,将其上传给服务节点进行汇总,给出新的聚类中心,并下传至各节点,如此循环反复直到超过预先设定的最大迭代次数,或目标函数值小于某个阈值为止;最后在hadoop云计算平台下,采用海量天体光谱数据,实验验证了该并行算法具有良好的加速比、可扩展性和可伸缩性。
其他文献
随着环境污染日趋严重和世界化石资源日益枯竭,开发和利用各种可再生能源在人类历史发展过程中变得日益紧迫。太阳能利用的主要形式之一便是光伏发电系统发电反馈入电网。而软
德国的产业关系模式曾经是西方产业关系的经典模式。德国独具特点的劳动关系模式,行业一级的集体谈判扮演着重要的角色。然而,随着全球化的深入发展,德国的行业层面的集体谈
<正>我国新医改说到底就是要解决群众反映强烈的"看病难和看病贵"问题,"看病难"的关键在于基层医疗机构吸引不到也留不住优秀人才,导致医疗技术水平的薄弱。留不住人才很重要
<正>护理人员担负着大量的医疗护理、预防保健和健康宣教等工作,为城乡居民的健康做出了巨大贡献,是基层医疗卫生队伍中不可或缺的重要力量。但是,目前我国护理人才队伍仍然
本试验旨在研究分析市场上正在广泛使用的饲料添加剂,探讨二次饲喂雄性幼犬后饲料添加剂蓄积对其生长、生殖发育的影响研究。选用12只1月龄犬,随机分为试验组和对照组,对照组
期刊
目的评价H-FABP快速检测试剂盒对急性心肌梗死(AMI)的早期诊断效果。方法比较H-FABP、CK、CK-MB和cTnT四种心肌标志物在AMI发作后6 h内的敏感性、准确性和时效性;比较H-FABP
此次金融危机带给有条件、有准备的企业很多发展机会。我国许多具有实力的企业纷纷开展了并购活动,如万向集团、吉利汽车、中石油等,但在企业并购活动中财务资源的整合却存在
区域竞争力的培育是知识经济时代下地区经济发展的动力,而知识溢出和区域科技创新是区域竞争力成长的源泉。我国东西部区域竞争力存在着一定的差距,而知识溢出和区域科技创新
建筑设计中的网格法是一种用来对建筑空间、造型等方面进行辅助设计的手法。长久以来网格法被广泛应用于建筑设计实践中。然而,目前国内对于其理论意义上的总结与发掘十分有