论文部分内容阅读
随着信息技术的飞速发展,各行各业每时每刻都有大量数据不断地产生,这些数据中蕴藏着很多可供人们参考的规律,从数据中发掘出这些规律并帮助人们进行更加正确的决策,将对诸多领域的发展起到极大促进作用。因此,对于各种数据挖掘技术的研究成了当下热门的研究方向。其中聚类分析技术因其能够发现事物内部的区别与联系成为了当下的研究重点。本文的主要研究内容如下:(1)首先,本文对聚类分析、群智能优化算法和并行计算技术的研究背景及国内外研究现状进行了介绍。同时详细阐述了聚类分析的理论基础,介绍了群智能优化算法,特别是人工蜂群能算法的基本思想与参数细节,并对其优缺点进行了分析。针对现今大数据环境下的数据处理需求,对大数据处理平台Spark的原理功能进行了介绍。(2)然后,为了获得更高质量的聚类结果,本文通过改进提高了人工蜂群算法的寻优能力,提出了基于动态邻域扰动学习的人工蜂群聚类算法(Artificial Bee Colony Clustering Algorithm Based on Dynamic Neighborhood Disturbance Learning)。在此算法中,为了改善基本人工蜂群算法中因学习机制匮乏所造成的搜索随机性过强的缺点,引入了动态邻域这一概念,每个个体通过向自身所处的邻域中最优个体的学习,来增强搜索的引导性,同时也避免了对群体最优的过度学习造成的陷入局部最优现象;为了增强搜索的精细程度,在搜索中引入高斯扰动因子,以高斯函数的特性确保对搜索范围内的搜索概率由近及远逐步降低,并通过加入高斯扰动可能产生的反向学习现象增强算法跳出局部最优解的能力;为了降低初始种群在解空间中覆盖不均对算法搜索造成的影响,通过在初始化过程中进行小范围淘汰使得初始种群在解空间中分布更加均匀;通过在侦查蜂策略中加入回溯机制,使得侦查蜂探索新蜜源时对算法优化过程中产生的信息进行一定程度继承,提升了侦查蜂策略的效率。将改进后的算法对UCI数据库中的四组真实数据进进行仿真测试,通过对比试验的结果表明,本文算法的聚类结果在簇的紧凑性,和聚类的准确性方面都有着明显提升。(3)最后,为了降低聚类算法在执行时所产生的时间开销,本文针对现今大数据环境,将算法基于Spark并行计算平台进行了并行化处理,通过多节点并行计算的方式分摊了适应度计算过程中所产生的时间开销。并对三组不同规模的真实数据进行对比试验,结果表明,在处理较大规模数据时,并行化算法所产生的时间开销相较于单机情况明显降低。