密度峰值聚类算法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:beiduwill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
密度峰值聚类(Density Peaks Clustering)是一种基于密度的聚类方法。密度峰值聚类算法有着易于实现、参数较少等诸多优点。鉴于其性能上的优势,目前已成为热门的研究领域。但是,密度峰值聚类算法是一类比较新的聚类方法,仍处于发展阶段,有很多问题需要进一步研究和改进。本文主要从提高聚类性能、增强鲁棒性和扩展性能方面,深入分析了密度峰值聚类算法的不足,并研究相应的解决办法。具体研究内容如下:1.对k近邻和主成分分析的密度峰值聚类进行研究。由于基于ε近邻的局部密度的鲁棒性不强,可能对密度峰值聚类算法的聚类性能和可用性产生一定影响。此外,基于ε近邻的方法更容易陷入维度灾难。将k近邻的思想引入进密度峰值聚类算法中,提出了基于k近邻密度峰值聚类(DPC-KNN)。其次,针对数据的冗余性问题,在DPC-KNN的基础上引入了主成分分析的预处理手段,进一步提出了DPC-KNN-PCA算法。2.对测地距离的密度峰值聚类进行研究。为了揭示数据中包含的流形结构,将用于流形学习的测地距离函数引入到距离的计算中。以短程线所构成的距离近似出数据间非线性距离。为了更好的对包含有多种流形结构的数据进行处理,将该种距离度量引入进密度峰值聚类算法中,提出了基于测地距离的密度峰值聚类算法。3.对基于局部密度敏感和密度自适应度量的密度峰值聚类进行研究。针对密度峰值聚类在处理可变密度数据时聚类表现不佳的情况,定义了一种基于密度敏感的局部密度方法。为了客观反映数据的复杂结构,定义了一种密度敏感的相似性度量方法,该度量能够降低高密度区域数据间的距离,变相地增加低密度区域数据点间的距离。在这两个概念的基础上,提出了基于局部密度敏感和密度自适应度量的密度峰值聚类。4.对针对混合型数据的密度峰值聚类进行研究。原始的密度峰值聚类算法仅能够处理数值型数值的数据。针对此点,设计了一种基于熵的可计算混合型数据的相似度度量方式。为进一步增加密度峰值聚类算法的可行性和聚类性能,采用模糊近邻的概念重新定义了局部密度。此外,设计了一种简单的自动选择中心点的策略。结合这三点,提出了一种针对混合型数据的密度峰值聚类算法,可有效的聚类数值型数据、类别型数据和混合型数据。
其他文献
现代信息技术的迅猛发展,对历久弥新的启发式教学赋予了新的生命和意义。在道德与法治课中,运用信息技术这一载体进行启发式教学的优势凸显,学生的学习兴趣被调动,思想情感进
搭建马赫-曾德全息光路图,分别进行了数字全息的两个相关实验:光学-数字全息(光学记录-数字再现),计算模拟全息(数字记录-数字再现),并对两个实验的结果进行分析加以对比。
阅读能力是学生语文的重要能力,阅读也是语文教学的重中之重,当前我国的教学大力推进素质教育,语文的阅读教学能力重要性越来越强。语文的阅读教学是一个很重要的体验过程,能
不论是发达的文明社会还是原始部落,也不论大语种还是小语种,语言的模糊表现都体现出一个民族的文化特征。不同文化背景的说话者会采用不同的模糊语言策略,而且不同的策略使用体
目的观察通腑清胰方辅助治疗重症急性胰腺炎的临床疗效及对肠道黏膜屏障功能和免疫功能的影响。方法将60例重症急性胰腺炎患者随机分为对照组和观察组各30例,对照组给予临床
新零售作为互联网时代下出现的一种新的商业模式,与新兴的人工智能进行深度融合,具有管理智能化的特点,能更好地推动零售行业智能化、场景化、人性化发展。其蕴含的机理表现
健康需求是人民生活水平提高到一定阶段以后必然会发生的需求,这些年全民健身风起云涌,对各种运动器材的需求量也是与日俱增。法国迪卡侬公司作为一家较早看准这一需求、进入
本文主要研究在我国现行的财政分权体制下,省以下地方财政制度中存在的问题。通过对某地级市2007--2011年财政收支的实证调查,发现长期存在的事权划分不清晰和财权事权不匹配的
本文分析了我国经济持续稳定增长中的水资源供需状况。根据水资源利用效率和国民经济增长预测,我国水资源需求总量将快速增加。生活、农业、工业和生态环境用水受各自发展趋势
When important social rights and interests of any citizens cannot be protected by public power in time,they can adopt extreme means to protect personal interest