基于动态邻域扰动学习的人工蜂群聚类算法

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:yluylu2k
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,各行各业每时每刻都有大量数据不断地产生,这些数据中蕴藏着很多可供人们参考的规律,从数据中发掘出这些规律并帮助人们进行更加正确的决策,将对诸多领域的发展起到极大促进作用。因此,对于各种数据挖掘技术的研究成了当下热门的研究方向。其中聚类分析技术因其能够发现事物内部的区别与联系成为了当下的研究重点。本文的主要研究内容如下:(1)首先,本文对聚类分析、群智能优化算法和并行计算技术的研究背景及国内外研究现状进行了介绍。同时详细阐述了聚类分析的理论基础,介绍了群智能优化算法,特别是人工蜂群能算法的基本思想与参数细节,并对其优缺点进行了分析。针对现今大数据环境下的数据处理需求,对大数据处理平台Spark的原理功能进行了介绍。(2)然后,为了获得更高质量的聚类结果,本文通过改进提高了人工蜂群算法的寻优能力,提出了基于动态邻域扰动学习的人工蜂群聚类算法(Artificial Bee Colony Clustering Algorithm Based on Dynamic Neighborhood Disturbance Learning)。在此算法中,为了改善基本人工蜂群算法中因学习机制匮乏所造成的搜索随机性过强的缺点,引入了动态邻域这一概念,每个个体通过向自身所处的邻域中最优个体的学习,来增强搜索的引导性,同时也避免了对群体最优的过度学习造成的陷入局部最优现象;为了增强搜索的精细程度,在搜索中引入高斯扰动因子,以高斯函数的特性确保对搜索范围内的搜索概率由近及远逐步降低,并通过加入高斯扰动可能产生的反向学习现象增强算法跳出局部最优解的能力;为了降低初始种群在解空间中覆盖不均对算法搜索造成的影响,通过在初始化过程中进行小范围淘汰使得初始种群在解空间中分布更加均匀;通过在侦查蜂策略中加入回溯机制,使得侦查蜂探索新蜜源时对算法优化过程中产生的信息进行一定程度继承,提升了侦查蜂策略的效率。将改进后的算法对UCI数据库中的四组真实数据进进行仿真测试,通过对比试验的结果表明,本文算法的聚类结果在簇的紧凑性,和聚类的准确性方面都有着明显提升。(3)最后,为了降低聚类算法在执行时所产生的时间开销,本文针对现今大数据环境,将算法基于Spark并行计算平台进行了并行化处理,通过多节点并行计算的方式分摊了适应度计算过程中所产生的时间开销。并对三组不同规模的真实数据进行对比试验,结果表明,在处理较大规模数据时,并行化算法所产生的时间开销相较于单机情况明显降低。
其他文献
<正>最近几年,随着经济改革的不断深化,我国各地的流动人口大幅度增加,流动人口问题也因此成为当前突出的一大社会问题,引起大家的普遍重视。人口刊物上讨论流动人口问题的文
党的十九大的召开,标志着我国进入了建设中国特色社会主义的关键时期,在注重经济发展的同时,生态环境保护问题同样值得重视。2015年,习近平考察云南省大理市时明确提出要改善
文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出
示范校评估在推行一段时间后,出现了一定的局限性:“示范”的提法已不再适用当前的教育发展趋势,某些相关单位对示范校评估的认识有误区,评估主体过于单一,实施过程中对促进学校发
小学是学生学习语言表达、语言技巧,培养阅读和言语能力最为关键的时期,而朗读作为一种融合情感和声音的认知方式,则是培养学生这一系列智能的根本渠道。但并非将学生引向朗
目的研究外阴Paget&#39;s病的诊断、病理、治疗和预后.方法回顾性总结和分析1960年~2002年期间在中国医科院肿瘤医院治疗的7例外阴Paget&#39;s病,病例的症状、病变部位、病理
7月17日~18日,水电水利规划设计总院会同四川省发展和改革委员会、能源局在成都主持召开了雅砻江牙根一级水电站可行性研究阶段坝址、坝型及枢纽布置格局选择专题报告预审会议
田径教学是当前高校体育课程教学的主要内容。田径运动是各种体育运动的基础,在实施素质教育的今天,田径教学的内容有它特有的意义和价值。通过分析高职院校田径教学的现状和
<正>为了更好地提高学生的写作水平,使学生明确自己作文中存在的优点及不足,在日常的教学中,不仅要重视对学生的作文指导,更应该把作文讲评课当作是提高学生写作水平的有效途
进入21世纪以来,美国遇到了新的挑战,九一一事件与一系列反恐战争、全球金融危机、日益极化的美国、美国在世界事务中的影响力相对下降,都在很大程度上冲击了美国的信心。形