基于遗传算法的K-means聚类算法分析研究

被引量 : 0次 | 上传用户:TTjj09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的发展,信息资源的经济和社会价值越来越重要。通过数据挖掘,从大量的数据资料中发现有价值的、人们感兴趣的信息或知识,可以达到为科学决策提供支持的目的。聚类分析是数据挖掘的一项基本任务,是一种无监督的分类方法。聚类的目标是把一个无类别标记的数据集按某种准则划分成不同的簇,使相同簇中数据的相似性尽可能小,而不同簇间数据相似性尽可能大。聚类的应用非常广泛,无论是在商务领域,还是在Web文档分类、图像处理等其它领域,都得到有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于模型的方法、基于网格的方法、基于密度的方法等。K-means算法是聚类分析的主要算法之一,是一种基于划分的聚类算法。该算法随机选取k个点作为初始聚类中心,通过一个迭代过程完成聚类。该算法有它固有的不足:它容易陷入局部极小值而得不到全局最优解;算法在进行聚类时要求有固定的K值,这对于没有经验的用户来说很困难;初始中心的选择对聚类结果有很大影响;一般的聚类算法对孤立点数据和噪声比较敏感。遗传算法是一种通过模拟自然进化过程搜索最优解的算法,它通过基因组合、交叉、变异、自然选择等一系列过程达到优化的目的。在这些过程中,通过“优胜劣汰”的原则淘汰掉解较差的基因,使得解朝着好的方向发展。它从一组初始可行解出发在只需要目标函数这一信息的条件下实现对可行域的全局高效搜索并以概率1收敛到全局最优解,具有隐含并行性和对全局信息的有效利用能力的显著特点,这种良好的特性使得遗传算法成为函数优化和组合优化的有力工具。因此,将遗传算法和K-means算法有效结合,充分发挥遗传算法的全局寻优能力和K-means算法的局部搜索能力,可以更好地提高聚类质量。针对传统遗传算法和聚类算法存在的缺陷,本文提出了一种改进的遗传k均值算法,该算法的改进之处:在遗传算法中采用自识别交叉算子和自适应变异算子,自识别交叉算子可以保证群体的优良模式遗传到下一代,加快了算法收敛速度,自适应变异算子扩大了搜索范围,增强了算法跳离局部最优解的能力;优化K-means聚类算法的初始中心,避免初始中心选择的随机性;根据适应度函数动态地确定合适的聚类数k值;使用了基于加权的K-平均的方法计算类中心,减小K-means算法对噪声和孤立点数据的敏感性。该文实验采用标准数据集来测试改进算法的有效性,设计了三套实验方案对改进算法和其它算法进行测试,并以图表和表格的形式对实验结果进行比较说明,得出了改进算法优于其它算法的结论。
其他文献
研究背景:我国是肝炎大国,每年均有大量肝炎患者进展为肝硬化,肝硬化已成为我国常见病和主要死亡病因之一,严重危害我国国民的健康,是当前一个严重的社会和医学问题。腹腔镜
近30年来,随着生命科学领域研究的不断深入,以生物技术为核心的生物医药产业发展迅速,成为当今世界经济中的一个新兴产业,其所产生的效益使人们看到了现代生物技术对经济和社
目的:通过对声带沟患者临床及电子喉镜图像进行相关分析,探讨声带沟的临床特点,明确其临床诊断及分型,为治疗和预防提供参考。方法:对广西医科大学一附院2005年6月-2009年2月
<正>浙江金华婺城区在涉及6200多户的"二七区块"大规模改造与新型城市化建设过程中,按照"绿色发展、共享发展"的发展理念,把群众的利益放在首位,实现了和谐拆迁,为我国在未来
毒品犯罪的主观要件都是故意。因此,司法人员在办理毒品犯罪案件中必须如实地查明行为人的主观态度,并判断该主观态度是否符合毒品犯罪主观要件。司法实践中,在犯罪嫌疑人利
目的:通过对高校教师的嗓音状况调查分析,探索嗓音疾病的危险因素对嗓音疾病的影响,以及不同的危险因素对嗓音疾病的相关强度大小,从而为嗓音疾病的治疗和预防提供科学依据。
程颢、程颐是宋明理学的奠基者,他们将儒家的“仁”所确立的伦理内容和价值取向上升到宇宙本体的高度加以论证,建立了以儒为本,融合佛老的精致、严密的思想体系。后世的朱熹
对7例失语症患者及40例正常受试者在5项言语作业时记录脑电图,计算各项言语作业中16个电极上δ、θ、α1、α2、β的功率值。与安静睁、闭眼时相应的功率值比较,以了解大脑各区域的激活
玉米是我国重要的作物之一,在我国农业生产中占有重要的地位。种质资源的遗传多样性评价以及种质间的遗传关系研究是玉米育种研究的主要内容。但是,由于选用亲本遗传多样性下
融资融券交易,是证券公司向客户出借资金供其买入证券或者出借证券供其卖出,并由客户交存相应担保物的经营活动。融资融券交易是一种信用交易,如果客户违反约定,到期不偿还所