密度峰值聚类算法的改进及其应用

来源 :南昌大学 | 被引量 : 1次 | 上传用户:caifh8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是新时代每个行业的隐形资产,能够挖掘出数据中蕴含的信息则能够助力行业快速发展以及产业的快速转型升级。聚类算法是一种无监督的数据分析工具,探究数据集其结构信息和数据样本相似关系,通过把数据样本进行分类的方式有效地处理海量数据。因此,各个领域都在广泛应用,如:模式识别、图像分析、信息提取、数据压缩和网络安全等。密度峰值聚类(DPC)是一种基于密度的聚类方法,该算法提出将数据样本点的局部密度以及相对距离相结合的概念,它不仅可以对任意形状数据集进行划分,还提出了新颖的剩余数据样本点分配的策略,并可以对离群点进行剔除。但其存在缺点,第一,截断距离依赖于人为设置,第二,现有局部密度计算方式不够合理,第三,以简单几何距离为主的数据样本距离测度方法存在弊端。基于此,本文主要研究内容如下:(1)基于L1范数的多密度峰值聚类算法研究。为了解决DPC算法在对于密切相邻的类簇可能将其识别为一类的问题,本文在原始密度峰值聚类中引入疑似聚类中心概念,研究基于L1范数的多密度峰值聚类算法。该算法利用概率分布对数据点的决策值进行聚类中心的选择,并对其进行数据点分配,最后利用Warshall算法对疑似类簇进行类簇合并得到最终的聚类结果。(2)基于随机游走的密度峰值聚类算法研究。针对原始DPC算法只是采用简单的欧式距离来刻画数据点之间的距离,本文讨论了基于随机游走的密度峰值聚类算法,该算法引用随机游走,通过随机游走来刻画数据点之间的距离,体现数据集的结构分布。实验结果表明,基于随机游走的密度峰值聚类算法在对数据类簇分布广泛的数据集的聚类效果显著。(3)基于密度峰值聚类算法的连续属性离散化研究。无监督性是密度峰值聚类算法特性,因此可以将密度峰值聚类算法应用在连续性属性的离散化,本文开展了一种基于密度峰值聚类算法的连续属性离散化。密度峰值聚类算法在对连续属性进行离散化时并不需要进行迭代,相较于传统的方法能够缩短时间,提高算法效率,实验验证了其离散化效果。
其他文献
目的 探讨基于网络信息支持的延续性护理在炎症性肠病合并艰难梭菌感染患者中的应用效果。方法 便利选取2018年4月至2020年10月于南京医科大学第一附属医院消化科住院的110例合并艰难梭菌感染的炎症性肠病患者,按照随机数字表法分为试验组和对照组,每组55例。试验组在常规出院护理基础上,进行基于网络信息支持的延续性护理干预,即建立病友群,利用微信平台每周推送疾病相关微信推文,通过微信小程序每日在线查
期刊
终于跟踪性是拓扑动力系统研究中最近引入的一个新概念,在系统复杂性的研究中具有重要作用.本论文分别就具有终于跟踪性的集值动力系统和具有终于跟踪性的拓扑动力系统的复杂性展开了一些研究.如得到了具有链传递性的集值动力系统,要么没有终于跟踪点,要么系统中每一个点都是终于跟踪点;以及具有终于跟踪性的拓扑动力系统若含有一个终于跟踪点但不是几乎周期点,则系统具有正拓扑熵等.具体安排如下:第1章绪论,首先简要叙述
学位
基因表达是基因型产生表型的最基本的层次,对于生物体的发育至关重要。人类基因组计划的成功完成,基因表达数据激增,这类数据的分析和处理成为探索其应用的主要瓶颈。精准医疗中,恶性肿瘤的药物靶点和生物标志物的精准预测识别,对患者临床治疗和癌症治愈具有重要意义。而评估一个新个体是否患癌比检测基因变异更加效率且成本更低,因此,开发一种利用理论知识和计算技术预测癌症和识别关联基因的方法是非常有意义的。本论文基于
学位
拟线性Schr(?)dinger方程源自于物理学,是量子力学中一类基本方程,可以用来解释某些非线性模型的物理意义.本文主要采用变分法和临界点理论研究一类含参量拟线性Schr(?)dinger方程解的存在性.具体工作如下:第1章简单介绍拟线性Schr(?)dinger方程的研究背景、研究现状以及本文所需要的一些基础知识.第2章研究含有深井位势和超临界非线性项的拟线性Schr(?)dinger方程基态
学位
本文利用多智能体系统理论研究分布式凸优化问题,设计了分布式优化算法计算网络全局目标函数的最优解.在无向图的情形下,采用梯度跟踪和比例积分策略,设计了一个固定步长的分布式优化算法,加快算法的收敛速度.在权重不平衡有向图的情形下,通过跟踪拉普拉斯矩阵左特征向量,设计了一个连续时间的分布式优化算法,将分布式优化算法从无向图推广到有向图.此外,在权重不平衡有向图下,基于一致性设计了一个分布式动态平均一致算
学位
粒子群优化(PSO)凭借其简单、高效的特点引起了许多研究者们的重视,并被大量应用于一系列优化问题。由于群体多样性损失速度快,PSO在求解复杂优化问题时较易于陷入局部最优的区域。因此,提高算法的收敛速度和收敛精度是粒子群算法研究的两个重要目标。基于此,本文提出了多样性驱动的自适应粒子群算法并对其进行应用研究。具体工作如下:本文提出了多样性驱动的自适应粒子群算法(DAPSO)。该算法结合了惯性权重线性
学位
<正>近年来,国家高度重视乡村教师队伍建设,先后出台了多项政策,支持乡村教师专业发展。但笔者调研发现,有关促进乡村教师队伍建设的各项政策待遇未能全面落实,乡村教师队伍仍存在“招不来”“留不住”“教不好”等问题。为此,我们尝试提出以下政策建议,以促进陕西省乡村教师专业发展支持体系的建设。
期刊
水是一种重要的资源,也是一种特殊的商品,为了加强城市的供水管理,增强居民节水意识,减少水资源的浪费,供水公司对所负责的辖区内的每家每户都专门安装了水表以方便进行每月用水量的统计,同时根据已制定的用水费用标准进行费用验算并完成水费收缴。但是目前大部分家用水表的抄表工作仍然依靠人工上门抄表的方式来完成,不仅耗费大量的时间精力,效率低下,而且需要供水公司提供一些经济成本进行抄表人员的任务规划和安排,严重
学位
<正>《秋天的怀念》是初中语文教材中的经典篇目,也是不少公开课堂上教师乐于选择的篇目,很重要的一个原因就是这篇课文代表着一个时期的最高文学水平,代表着文字与一个人内心情感的最佳结合。对于这篇文章,可以说无论如何解读都不为过,而且事实也确实表明,只要你愿意去深度解读,总能从课文的那些细节当中,咀嚼出人生的况味。对于经典的作品,人们的第一选择往往都是从宏观角度去认识,去解读,于是也就形成了许多宏大叙事
期刊
众所周知,中立型泛函微分方程的发展趋势不仅依赖于当前和过去一段时间的状态,而且依赖于过去一段时间状态的变化率。当考虑随机干扰时,这类系统可以用中立型随机泛函微分方程刻画。因为其精确解很难给出,一般用数值方法来近似。利用Rzaumikhin定理讨论此方程数值解的稳定性的研究结果目前不是很多。带马氏切换和比例时滞的中立型随机泛函微分方程,中立项和马氏调制不仅同时存在,其解而且与过去一段的状态及其状态的
学位