基于微粒群算法的聚类算法

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:yc513485587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中挖掘出未知的、有价值的模式或规律的复杂过程。聚类分析是数据挖掘中的一个重要研究领域,其目的是按照事物间的相似性对给定事物进行区别和分类,并采用数学方法对其属性进行研究和处理。聚类分析算法大致可划分为以下几类:层次聚类算法、分割聚类算法、基于现实约束的聚类算法、机器学习中的聚类算法以及用于高维数据的聚类算法。动态聚类算法是分割聚类算法中的一个重要分支,但现有的动态聚类算法在运算过程中容易陷入局部最小和对初始值敏感等不足,限制了它的发展。很多学者尝试采用全局寻优算法来改进聚类算法,如:遗传算法、免疫规划和模拟退火等算法,取得了一定的成效。微粒群算法是一种高效的群体智能算法,具有收敛速度快、容易实现等优点,因此,将微粒群算法应用到聚类算法中将能有效的改进现有聚类算法的不足。 本文分析了现有的聚类算法,这些算法的聚类数目需要提前确定。在此基础上,提出一种基于微粒群算法和K均值聚类算法的混合聚类算法,该算法定义了两种类间距离,构造出一种新的聚类有效性函数,利用该函数对最佳聚类数进行求解。仿真结果显示了该方法合理有效。 现有聚类算法的目标函数是样本到聚类中心欧式距离平方加权和的最小值,依据样本到聚类中心的距离将样本划分到离聚类中心最近的类中,这些聚类算法很难对复杂形状的数据进行聚类。因此,本文提出了基于生长树的聚类算法,其中定义了最邻近距离和生长树等概念,并将最邻近距离作为生长树的生长方向和样本划分依据,以生长树的大小作为聚类效果的判定函数。新算法利用网格和密度阈值来去除数据集中的孤立点,并从网格集中随机选取种子点,最终通过微粒群算法确定聚类结果。测试结果表明,基于网格生长树的微粒群聚类算法对于规模较大、形状复杂并且非重叠的数据是可行有效的。
其他文献
随着互联网上可用信息的日益增多,怎样快速而有效地获取有用信息成为人们研究的重要课题,信息自动分类就应运而生了。贝叶斯作为其中的一种分类方法,应用在很多领域。本文将
无线传感器网络(Wireless Sensor Networks,WSNs)是通过在待检测的区域内部署具有计算和通信功能的传感器节点,从而形成无固定基础设施的自组织网络。它存在部署规模大、节点
XML是一种由W3C推出的标记语言,因为它的跨平台,跨网络的特性及其易扩展的语法和语义,使其成为了网络上数据交换的事实标准。随着以XML格式存储数据的日益增多,其安全性已经
随着Internet的飞速发展和万维网(WWW)的日益庞大,Web资源的复杂程度更是以指数级的数量增长,导致人们在查找所需信息时不知所措。为了解决“信息过载”和“资源迷向”的问题,搜
工作流管理是能够有效提高企业效率和执行质量的途径之一。流程建模是其中的一个重要环节,常见的建模方法大多是基于活动、产品、目标或决策的。基于活动的流程建模由活动及
协议工程是是以协议为研究对象的软件工程,它采用形式化方法描述协议设计和维护中的各个活动,但所建立的协议设计方法比现有软件工程方法更严格,从而使整个协议的开发过程更
本文所设计和实现的系统是东软HIS (Hospital Information System)中的一个子系统,该子系统为东软HIS中各个子系统的消息传递搭建了一个高效和可靠的消息传递桥梁,以此来减少
随着Internet技术的迅速发展,利用网络平台解决城市中突发事件时多个部门协同工作的城市应急联动系统受到政府部门的极大重视,这对提高城市对突发、应急和灾难性事件的快速反
人脸表情识别技术是涉及生物特征识别、模式识别、图像处理、机器视觉、运动跟踪、生理学、心理学等研究领域的一个极富挑战性的交叉课题,是近年来模式识别与人工智能领域的
课程之间拓扑图的自动构建可以为高等学校教学计划自动编排、在线图书销售与推荐系统等提供模型参考。课程之间拓扑图自动构建技术的核心任务是如何依据课程的语义建立课程之