聚类分析中K-means聚类算法的改进与新聚类有效性指标研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:stenvenxin123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据可用性不断增强的现实背景下,聚类分析作为挖掘数据之间关联性的重要工具得到了广泛应用,该方法采用无监督的机器学习方式,从无标记的海量数据集中获取有价值的信息和知识。K-ea算法是其中最经典的优化模型之一,因其具有操作简单、局限性已知、能够迅速收敛等优点,被应用于各种聚类分析领域。然而K-ea算法具有易错误初始化类簇中心、易迭代陷入局部最小值、非凸型数据集处理性能差等问题,使得该算法的聚类划分结果不佳且稳定性较差。聚类有效性指标(CVI,C e g Va d I de)也是聚类分析中关键的环节,然而,现有的许多CVI都存在诸多不足:假设性较强、只适用于特定的数据集分布、聚类结果误差大等。针对上述问题,本文首先提出了一种基于初始中心动态检测与AHC(Agg e a e H e a ch ca A g h)融合的改进算法:DH-K ea(A I ed K-ea C e g A g h Ba ed D a c I a C e Ce e De ec a d H e a ch ca C e g),然后提出了全新的名为NCSI(Ne C ac e-e a ab Ba ed I de)的聚类有效性指标。本文的主要工作如下:(1)针对上述K-ea聚类算法存在的问题,提出了一种基于初始中心动态检测与AHC融合的改进算法:DH-K ea算法。该算法首先采用基于密度和聚类距离的综合度量来动态检测出数据集的初始类簇中心,使该算法不必陷入局部最优的问题。其次,将AHC算法思想融入到DH-K ea的迭代过程中,通过从指定的类簇数量上限开始逐步合并相似类簇的方式,进而提升算法的性能以及应对多种类型数据集的能力。(2)提出一个全新的名为NCSI的聚类有效性指标。新NCSI指标从数据集真实划分结果的几何结构出发,主要对传统的聚类紧凑度和分离度进行改进和刻画。根据K值的通行规则,自适应地计算数据集在不同K值范围内所对应的NCSI指标值,在准确获得最佳类簇数的同时,亦能够更精准稳定地对聚类结果的质量进行评价。(3)针对本文提出的DH-K ea改进算法和NCSI改进指标,在凸型、非凸型以及高维多属性等多种类型数据集下进行实验检验。实验结果表明,DH-K ea算法与AHC、结合AHC改进的K ea-AHC、K-ea和K-ea++这四个现有算法相比,能够确保在时间不过多消耗的情况下,对多种类型的数据集进行迅速、稳定、精确地处理。NCSI指标与S、D、CH、DB、I、COP和SMV这7种现有的指标相比,能够更精准稳定地评价各种类型数据集的聚类结果的质量,进而也说明了NCSI指标的优越性。
其他文献
特征选择是数据挖掘领域中一个重要的数据预处理手段,其目的是从数据的全部特征中选择出部分对学习模型(如分类算法)有用的特征,以此增强模型的效率和效果。特征选择有两个目标需要优化:一是提高学习模型的性能,二是降低特征数量,因此特征选择问题能天然地建模成多目标优化问题,而基于进化多目标优化的特征选择算法是目前的一个研究热点,由于其不需要关于搜索空间的先验知识和假设,且能在一次运行中产生一组权衡不同冲突目
学位
随着生活质量的不断提高,身体健康问题越来越受到人们的关注。有关身体健康状况的生命体征参数有心率(Heart Rate,HR)、呼吸率、血压和血氧饱和度等,其中,心率是较为重要的一项参数。心率的动态变化与潜在的心脏疾病息息相关,如果患者出现心率过速、过缓或心律不齐,都应该及时地就医、检查。因此,在日常生活中,针对心率的估计和实时监测能有效地预防和治疗心血管疾病。近年来,基于面部视频的心率检测方法的各
学位
稀疏多目标问题是指其Pareto最优解中多数决策变量为零的优化问题,此类问题在科学研究和实际应用中广泛存在,如稀疏信号重构、稀疏神经网络训练、复杂网络关键点探测等。进化算法是求解优化问题的一类重要方法,具有不依赖待求解问题的精确数学模型、鲁棒性强、易并行等优势,目前已成为解决稀疏多目标优化问题的主流方法。近年来,尽管已经出现了多种有效求解稀疏多目标优化问题的进化算法,然而在处理一些复杂稀疏多目标优
学位
随着软件开发难度的增加,现在的开发者越来越注重复用开源软件项目,以提高开发效率和软件质量。因此,开源软件项目的数量爆炸式增长在为开发者提供更多选择的同时也让他们面临着信息过载的挑战。虽然传统的推荐系统可以解决这一问题,但它们通常无法充分利用开源软件社区中特有的信息。一方面,开源软件社区中天然存在社交影响、依赖约束和开发者的动态兴趣这三种信息。在社会化协同编程的过程中,开发者的兴趣会动态变化,也会受
学位
软件架构定义了系统结构并决定其质量,确保软件架构的合理性和可维护性对后续开发至关重要。架构异味是软件技术债务的具体表现形式之一,表明系统中存在潜在的问题,它们在软件开发的过程中不断积累且反复出现,阻碍了软件的可维护性和可重用性。除了传统架构中会存在架构异味外,近年来广受关注的微服务架构也受到微服务架构异味的影响。目前,对传统架构异味的定义已比较明确,但对其进行检测的效率和覆盖范围还有待提升;另一方
学位
微服务的诸多优良特性,如可伸缩性、可维护性,促使更多的决策者选择将单体迁移到微服务。研究人员们也提出了多种微服务拆分方法。然而,如何在迁移过程中适当拆分微服务仍然是一个棘手的问题。首先,不同领域的单体迁移需求各不相同,如何选择合适的微服务拆分方法却很少受到关注。其次,当前的微服务拆分主要依赖于架构师或领域专家,这比较主观且耗时。而半自动化或自动化的微服务拆分方法仅能产生粗粒度的结果,并且受不同系统
学位
现实世界中存在着如电力、交通等各种各样的复杂系统,在这些系统中存在着形形色色的实体及实体间的关系。网络这一数据形式由于具有表达实体间关系的能力,被广泛的应用于复杂系统的建模。基于这些真实的系统,研究人员发展了网络科学理论并提出了一系列的相关问题。作为网络科学领域中的基础问题之一,网络拆解目的在于从网络中选择一组节点,使这些节点的移除可以显著削弱网络的连通性能。而网络的连通性对于结构鲁棒性、信息传播
学位
在各种推荐系统中,用户对项目的数值评分和文字评论是反馈其偏好的主要信息。然而,传统的仅借助用户的评分来进行推荐的模型,如协同过滤,在数据非常稀疏的场景下无法有效工作。当前的一些仅使用评论信息进行推荐的模型也会受到评论稀疏性的影响。一方面,大多数场景下用户给出评分和评论都是相互关联和互补的,评论可以解释为什么用户对这个项目给予高或低的评分。另一方面,评分和评论分别从粗粒度和细粒度两个层面反映了用户的
学位
在科技迅速发展的时代,人们青睐于在各类平台上发表观点,产生大量的评论文本如电影评论、产品评论等。针对这些评论信息进行情感分析,可以指引消费者购买商品和观影,协助他们快速地做出判断。此外,也为生产者带来改进意见,促进产品质量的提高。因此,对这些评论文本进行情感分析具有重要的意义和价值。评论文本不仅基数大,而且生成的特征表示维度高且存在信息冗余。特征选择能够过滤冗余信息,更有效地进行情感分析。然而,现
学位
RGBT目标跟踪由于其全天时、全天候下卓越的跟踪性能受到了人们的广泛关注,现有的方法通过设计融合模块来实现有效的多模态融合,然而这些融合方法缺乏足够的表达能力,很难应对复杂的现实场景。此外,融合的RGBT特征有噪声和冗余,其中一些无用的特征甚至干扰目标的定位并导致过拟合问题。为了解决上述两个缺陷,本文围绕增强特征信息与特征选择展开研究,论文的主要工作如下:第一,给出了一种基于交叉注意力的RGBT目
学位