基于流形的密度峰值聚类算法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:xqdd520cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种重要的算法,聚类在数据挖掘、模式识别、图像处理及数据压缩等领域有着广泛的应用。它根据相似度将各个样本点划分到不同的组中,使得同一组中的样本点差异尽可能的小,而不同组中的样本点差异尽可能的大。基于密度的聚类算法是以数据集在空间中的分布稠密程度作为依据进行聚类的。它将聚簇看作是数据空间中由低密度区域分隔开的高密度区域,只要区域中某个样本点的密度大于指定的阈值,就把该样本点加入到与之相近的聚簇中去。随着数据挖掘以及机器学习技术的不断发展,众多学者提出了多种基于密度的聚类算法。本文着重研究了最新提出的一种密度聚类算法——密度峰值聚类算法,并且对其做了一些必要的改进,同时将其扩展到流形空间中,并在演化数据环境下进行了拓展和应用,主要研究工作和成果如下:(1)本文提出了基于测地线距离的密度峰值聚类算法。原始的密度峰值聚类算法在算法输入中需要提供已经预处理过的距离矩阵作为相似度矩阵,然而,对于不同的行业、不同的应用,选择不同的距离计算方法对于最终的聚类效果相差甚远,所以本文综合考虑选择了最能反映样本点之间实际距离关系的测地线距离来计算距离矩阵,提供统一的标准。其次,原始算法中需要用户使用鼠标手工地选择簇中心,一是不够方便,二是有失公允,对此本文采用了根据簇数目自动确定簇中心的方式,提高了运行效率。(2)本文提出了基于等距映射的流形密度峰值聚类算法。对于原始的密度峰值聚类算法在处理高维数据集时聚类效果不理想的情况,本文引入了等距映射算法对高维数据集进行低维映射,对维数进行约简,将数据集中的样本点映射到低维空间,提高了密度峰值聚类算法处理高维数据集的能力;并通过引入非负矩阵分解方法与等距映射算法进行比较,根据降维后的数据在密度峰值聚类算法中的聚类结果可以看出,基于流形的等距映射算法更为合适。(3)本文还提出了基于流形密度峰值的演化数据聚类算法。针对网络上层出不穷的应用,大量用户在网络上的各种行为都产生了海量数据,实时高效地对这些数据进行分析和处理愈来愈受到广泛的关注。在此需求背景之下,本文将基于等距映射的流形密度峰值聚类算法进行了进一步的拓展,应用于演化数据环境下进行实时高效的聚类处理。
其他文献
期刊
期刊
随着信息化建设的推进,各单位内部局域网相继建成,并通过统一出口接入Internet;随着互联网的发展和普及,互联网的用户数和网络数据量急剧增加,当前的网络的主流C/S模式服务器
随着网络的发展和普及,基于网络的应用技术、模式逐渐成熟,尤其是在云计算日趋完善的大背景下,更多的公司、个人选择在线系统作为商业、生活的一部分。随之而来,网络攻击行为
学习站点是高校履行高等学历继续教育人才培养和社会服务等社会责任的重要辅助机构,在多年的发展中,高校对学习站点的设置与管理已建立了完备的制度监控体系,但仍在专业特色
期刊
虚拟作物建模是以个体作物或群体作物为研究对象,采用计算机可视化技术,模拟作物的实际生长过程。通过虚拟作物研究,研究人员可进一步精确分析并总结作物的形态特征和空间结构,实现作物功能模型和结构模型的相结合,设计更理想的作物株型和品种以实现作物高产等,作物的可视化建模研究应用前景广阔,具有理论研究意义和应用价值。本研究工作以田间试验数据和前人归纳总结的资料为依据,通过对水稻生长过程特征的不断深入研究,尽
将德育与儿童生活有机融合,并让其成为能够改变、改善儿童生活的“因子”,是学校德育研究与品德课程研究共同关注的话题。要改变学校德育碎片化的现状,需要以“生活德育”为核心
随着Internet的发展,网络考试系统得到了越来越广泛的应用。尤其是近几年来,我国高职院校的迅猛发展,计算机网络和机房教学设备都已普及,因此,采用计算机网络进行考试的需求
[摘 要] 根据专业认证的成果导向教育理念(OBE),提出供热工程课程的毕业要求;分析了供热工程课程教学现状和存在问题。基于OBE理念,从课堂教学方法改革、学生专业技能培养,以及课程考核等方面,探讨了供热工程课程教学改革的内涵。   [关键词] 专业认证;供热工程;教学改革   [中图分类号] G642 [文献标志码] A [文章编号] 1008-2549(2019) 09