基于密度峰值的聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:samzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘的核心部分,其可在无任何先验知识的情况下,通过探索数据的内部结构和数据之间的相关性来挖掘潜在的有价值信息,因此该技术已被广泛应用于文本挖掘、生物信息学、图像处理等诸多领域。密度峰值聚类(DPC)算法是一种新的被众多学者高度认可的启发式聚类算法,其具有原理简单、易于实现、聚类速度快等优势。然而,任何一种单一的聚类算法都难以解决所有的聚类问题,因此本文对DPC算法的局限性进行了创新性改进,提出了相应的改进算法。论文工作如下:1.提出了结合K近邻的改进密度峰值聚类算法。针对DPC算法的密度度量方式不统一、剩余点分配策略易带来误差传播和聚类质量较低等缺陷,本文给出了一种统一的局部密度计算方法,并结合K近邻和队列思想设计了两种不同的剩余点分配策略,提出了一种改进的密度峰值聚类算法,即IDPC算法。通过21个不同数据集的数值实验,将IDPC算法与DPC、AP、DBSCAN、K-means、FKNN-DPC等聚类算法进行比较和分析,验证了IDPC算法在聚类质量和聚类效率方面的优势。2.提出了基于K近邻和多类合并的密度峰值聚类算法。针对密度峰值聚类算法在处理结构复杂、维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题,本文对聚类中心评价指标和剩余点分配策略进行了改进,并结合多类合并策略,提出了一种新型的密度峰值聚类算法,即KM-DPC算法。通过与IDPC、DPC、AP、DBSCAN、K-means、FKNN-DPC等聚类算法在22个标准数据集上的对比实验表明,KM-DPC算法优势明显。3.提出了基于密度峰值的眼动数据辨识算法。由于DPC及其改进算法仍无法处理现实中存在的具有复杂结构且各类间有较多交叉重叠的人眼运动数据,本文设计了一种新的眼动数据辨识方法,即EyeDP算法。该算法的核心是先利用新给出的距离阈值法来提取眼跳数据,然后结合密度峰值和K近邻思想设计新的剩余点分配策略和局部类合并条件来辨识注视和平滑尾随数据,最后引入容错处理步骤来减小误分率。通过比较EyeDP算法与经典眼动数据辨识算法I-VVT在11组真实眼动数据上的聚类效果和各性能指标值表明,EyeDP算法在聚类质量方面表现良好。综上所述,本文提出的改进算法取得了较好的效果,而算法中存在聚类中心选取需人工干预、相似性度量方式单一及算法运行效率有待提升等问题,这是下一步的主要工作。
其他文献
运用作业分析法、观察法等方法,对小学四年级维汉双语班40名学生数学应用题解题过程进行了调查分析,并针对性地提出了解决问题的几点建议和对策。
目的:观察小针刀松解术治疗上交叉综合征的临床疗效。方法:将60例上交叉综合征患者随机分为治疗组和对照组。2组均予红外线照射治疗,治疗组联合小针刀松解"小T"(即枕后项平面
目的研究与探讨脑血管患者综合康复护理方式。方法选取2011年8月~2012年8月在院就诊治疗的突发脑血管疾病患者88例,随机将其分为综合护理组44例患者进行生活、肢体功能、心理
余嘉锡所著《四库提要辨证》是对《四库全书总目》研究的重要成果。此书对《四库总目》中的490余篇提要进行了辨证,提出不少宝贵意见,但也存在一些可以进一步讨论的问题。仅
目的探讨新生儿肠旋转不良的临床特点.方法回顾性分析1962~2002年我院收治的经手术治疗的新生儿肠旋转不良75例病例资料.结果生后1周内发病就诊者35例(46.7%),第2周内20例(26.
采用电石渣复合生石灰及其他助燃组分制备干基脱硫剂,完全可适用于循环流化床的气力输送喷入系统。通过添加复合矿产尾渣催化助燃组分,可有效提高其炉内燃烧效率。试验表明:使用
目的观察合欢逍遥散颗粒治疗腹泻型肠易激综合征肝郁脾虚证的临床疗效和安全性。方法将170例患者随机分为治疗组与对照组,每组85例。对照组采用马来酸曲美布汀胶囊治疗,治疗
分析攀枝花农产品电子商务发展现状,探讨攀枝花农产品电商中面临的主要问题以及攀枝花农产品电子商务发展的思路,为攀枝花实现农产品电子商务的良性发展提供参考,让农产品的
我画水彩已有二十年之久,但是正真对水彩画语言形式有所顿悟却是在40岁以后。从生理年龄来看,40岁以后已经开始变老了,但对于一个画家,40岁以后则是重新寻求创作突破点并有所
行风建设是医院综合发展的重要组成部分,是医院可持续发展的立院之本、强院之基。抓好行风建设是抵御不正之风侵蚀,推进医院良性发展,塑造医院良好形象的重要内容。哲学原理