微粒群优化算法及其在高维数据聚类的应用研究

被引量 : 0次 | 上传用户:youdong2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据聚类是数据挖掘领域中的重点和难点。数据挖掘的基本起始点是假设将一个数据对象表示为一个高维特征向量,比如文本文档。传统的聚类算法对高维数据的聚类质量由于维数灾难问题而大大降低。当特征维数增长时,数据对象在高维空间中分布非常稀疏,数据对象之间趋向于等距是普遍现象。在高维数据集中,对一个簇而言,通常存在着大量不相关或是冗余的特征;而不同簇之间的相关特征子集又是不一样的。因而,在高维数据集中,发现在所有维中存在簇的可能性几乎为零。聚类这类高维数据集的技术一般称为子空间聚类或投影聚类,其目的在于从不同的特征子集中发现簇。然而,许多子空间或投影聚类算法的性能也随着子空间规模增长而迅速下降。并且,有些算法需要用户提供一些领域知识帮助调节它们的参数,比如维内数值的最大距离、输入参数的阈值、数据最小密度等,而这些参数往往很难设置。为了避免微粒群算法(Particle Swarm Optimization:PSO)在全局优化中陷入局部极值,本论文首先设计了更加有效的微粒群优化算法变种。论文分析了标准PSO算法早熟收敛的原因,提出了自适应扩散混合变异机制微粒群算法(Particle SwarmOptimization based on Adaptive Diffusion and Hybrid Mutation:InformPSO)。结合生物群体信息扩散的习性,设计了一个考虑微粒分布和迭代次数的函数,自适应调整微粒的“社会认知”能力,提高种群的多样性;模拟了基因自组织和混沌进化规律,引入克隆选择使群体最佳微粒gBest实现遗传微变,局部增值,具有变异确定性;利用Logistic序列指导gBest随机漂移,进一步增强逃离局部极值能力。基于种群的随机状态转移过程,证明了新算法具有全局收敛性。与其它几种PSO变种相比,复杂基准函数仿真优化结果表明,新算法收敛速度快,求解精度高,稳定性好,能有效抑制早熟收敛。其次,特殊目标函数以及编码设计使得改进的微粒群算法更适合高维数据聚类,改进的微粒群优化算法用于求解高维数据聚类存在的两个问题。第一问题是给定高维数据集中的聚类数目k,如何确定软投影聚类中的变量加权问题。该问题的主要思路是为每个簇寻找一组变量权值,一般被转化为服从许多等式约束的非线性连续函数优化问题。针对于这一问题,我们设计了一个微粒群优化算法(Particle Swarm Optimization for the Variable Weighting Problem:PSOVW)寻求软投影聚类高维数据的最优变量权值。高质量的聚类结果往往需要合适的目标函数以及高效的搜索策略。PSOVW中,我们使用了一个特殊的k-means目标加权函数,该函数倾向于计算每一类在各自相关维的类内方差和而不是不相关维的类内方差和。在优化的目标函数中,新算法同时使用了非正规化的编码来表示变量权值。这种编码将软投影聚类中原本的变量权值问题的受限于等式约束的搜索空间转换成一个冗余的封闭空间,大大便利了搜索进程。跟其它软投影聚类算法相比,PSOVW采用PSO最小化给定的目标函数,因而算法对聚类中心的初始值更不敏感。在算法产生的合成数据集和UcI数据库的实例试验中,PSOVW被证明能大大提高聚类质量。高维数据聚类存在的第二个问题是聚类过程中如何自动确定聚类数目,该问题也被视为界约束内一个非线性连续函数的优化问题。针对于该问题,我们设计了(Automatically Determining the Number of Clusters using Particle SwarmOptimization:autoPSO)。特殊编码设计允许autoPSO在迭代中能够表示具备不同聚类数目的划分,而Davies-Bouldin(DB)这个聚类有效性函数用于评价一个数据集不同划分的质量。我们在合成的高维数据集上测试了autoPSO的性能,并将实验结果与其他聚类算法进行比较,实验结果表明,微粒群优化算法自动聚类高维数据具备可行性以及广泛的应用前景。
其他文献
大量隧道实践表明,在隧道断层破碎带及其影响带、浅埋段的构造运动强烈带及强风化带、隧道上方堆积体段及松散砂土体段等位置,隧道开挖后,围岩松动脱落,在短时间内产生大量塑
应用支持向量机(SVM)理论中的非线性回归预测法,分别对大型集装箱船和散装货船上层建筑舱室振动进行了预测。对国内外关于船舶振动预报方法进行归纳总结,本文首次将SVM非线性
对城市园林式景观分布的合理性规划,能够有效提高城市整体形象,增加人们对生活环境的舒适度。对园林式合理性规划的景观分布的研究,需要结合蚁群算法对各路径上蚂蚁留下的寻优信
本文从岩溶地基的勘察和岩土工程评价着手,针对岩溶地区地基基础处理技术的常用方法进行分析和说明,为岩溶地区建筑地基处理及基础设计提供借鉴和参考。现代科学技术的持续更
2017年9月14日,由湖南省文联主办,创作与评论杂志社、中华诗词杂志社、人民文学出版社协办的李元洛《诗美学》研讨会在北京召开。湖南省文联党组书记、副主席、秘书长夏义生,中
沥青路面温度场的分布与路面的承载能力和使用性能以及沥青材料的强度参数都有着内在的和必然的联系。深入了解沥青路面温度场的分布特性和变化规律、正确预测路面温度的分布
音乐学科核心素养这一概念于2018年1月在《普通高中音乐课程标准(2017版)》中确立,这一概念的确立使我国的音乐教育走向了核心素养的新时代。美育是核心素养培育中不可或缺的一部分,在高中阶段,音乐教育成为学校实施美育的主要途径,因此,培养与提高学生音乐审美感知能力继而增强学生整体的音乐学科核心素养是学校音乐教育的重要任务。青岛市作为山东省经济中心、国家沿海重要中心城市之一,教育水平处于领先水平,其
智能主体技术是人工智能领域的研究热点,智能主体系统与知识表示和知识推理有着密切的联系。在智能主体技术的研究中,主体的设计必须建立在知识表示和知识推理的坚实理论基础
自主创新和模仿创新是企业进行技术创新的两种不同的模式,企业对不同创新模式的选择与企业自身实力密切相关。基于此,本文以博弈为基本手段,探讨企业实力不等对企业技术创新模式
小学生安全感较弱,体育活动存在一定风险,体育课上经常发生意外伤害。因此,迫切需要关注小学体育的安全,加强安全意识的培养,采取一系列措施予以避免和处理。本文在分析当前