密度峰值聚类算法的若干改进及其应用

来源 :吉林财经大学 | 被引量 : 3次 | 上传用户:lyklcjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的人们均处在大数据时代背景下,数据增长呈现出了令人吃惊的速度,数据积累逐渐增多,数据之间的内部结构变得不清晰,致使真正了解数据之间的关系变得尤为复杂,基于此,聚类挖掘技术应运而生,通过无监督学习,从庞大的数据中挖掘出数据之间实际的内部关系已成为机器学习探讨的热点。快速搜索发现密度峰值聚类算法(Clustering by fast search and find ofdensity peaks,which could be called DPfor short in this paper)是2014年发表在Science上的一种基于密度的聚类算法,DP算法具有算法原理通俗易懂、聚类高效、操作简便和参数少等优点,基于此,该算法的一经出现就在学术界引起了巨大的轰动,受到了广大科学工作者的推崇,在学术界、商界表现出了极大的竞争实力。尽管如此,DP算法仍然存在几点缺陷:(1)DP算法每次对较高维度的数据进行聚类分析时,由于高维数据存在于自身结构的极大的特殊性,数据拥有的维度数量较多和大量冗余信息的干扰,聚类质量将受到严重的影响,使得密度峰值聚类算法难以找到数据的真实聚类结构;(2)DP算法的参数需要人为进行干预,研究者往往根据自身的经验进行参数的调节,缺乏一定的选择依据;(3)DP算法的聚类结果不能自动给出,需要手动进行确定。本文针对上述问题展开专门研究,分别针对不同问题提出不同的改进方案:(1)本文着力研究对于密度峰值聚类算法在很大程度上难以对较高维度数据进行聚类分析的问题,提出基于熵权法和核主成分分析的密度峰值聚类算法(Density Peak Clustering Algorithm based onEntropy Weightand Kernel Principal Component Analysis,which could be called EWKPCA-DPfor short in this paper)。该算法首先利用熵权法对样本数据赋权,消除无关属性的影响,然后利用核主成分分析法对高维数据进行降维,最后运用密度峰值聚类算法实现高维数据在低维空间的聚类。(2)鉴于数据具有的不同属性会对聚类结果产生不同的影响,本文提出一种基于属性重要性的密度峰值聚类算法(An Improved Attribute Importance-based Clustering Algorithm with Density Peak,which could be called AI-DPfor short in this paper),利用变异系数赋权法对属性赋予不同的权重,然后利用核主成分分析法以非线性方式合理降低数据维度,最后运用密度峰值聚类算法实现最终的聚类。(3)密度峰值聚类算法每次在执行聚类操作时均需要人为输入一定的百分比来设置参数的数值,这样的缺陷使得该算法不但在运行效率上是没有竞争力的,而且在聚类结果准确性方面也会使研究者产生一定的质疑,为此,提出基于果蝇优化的密度峰值聚类算法(Density Peak based on Fruit Fly Optimization Algorithm,which could be called FOA-DPfor short in this paper)。该算法结合果蝇优化算法的全局寻优能力,以信息熵作为评判函数,对密度峰值算法的截断距离参数进行寻优,从而避免通过人为设置参数产生的误差,进一步根据Silhouette有效性指标和F-measure指标来确定最佳聚类结果。由于提出的改进的密度峰值聚类算法具有很大的优越性,将改进的密度峰值聚类算法应用在家电行业上市公司的股票分析中,为上市公司正确分析市场行情,提出客观、准确的投资方案提供理论依据。
其他文献
近年来,随着实物资产管理体系的不断建立与完善,其管理活动也不断地向规范化方向发展,管理要求也在不断提高。由于各级管理人员在实物资产管理上的认识不清、责任不明、制度
为了进一步完成公司年度节能降耗的指标,技术人员根据本部设备情况和装船流程工艺开发了取装流程的逆启动和顺停操作,攻克了"取料机长时间不上料"和"流程长时间空运转"这两项难题
为了进一步降低以液压方式驱动的管状带式输送机的能耗,对管状带式输送机的变速运行控制工艺进行完善,使其在密度较小的物料上同样适用。
目的 探讨心肌细胞内DAG-PKC信息传导通路激活在糖尿病心肌病发病机制中的作用。方法 比较糖尿病大鼠胃饲钒酸盐前后心功能,心肌总DAG含量,胞膜和胞浆PKC活性及心肌形态学变化。结果 糖尿
做力学校体育教育者,我们要认真总结学校体育工作的经验教训,控索一些规律性的认识,并参考国外学校体育的先进理论和实践,结合我国实际制定出学校体育改革的整体思路的规划,
为了适应现阶段叉车司机培训的需要,进一步提高培训水平,在现代虚拟现实技术的引领下,深入研究了叉车操作模拟训练技术,分析了叉车工作机构的功能及操作要求,明确了训练仿真机的功
党的十九大以来,党和国家更加重视审计工作。尤其是中央审计委员会的成立,表明审计将在国家治理中发挥更加重要的作用。在中国这样一个大国,全局意义上的国家治理知识积累是
报纸
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着我国经济发展和城镇化进程的加快,“特色小镇”成为破解经济结构转化,推进经济转型升级的战略选择,截止到2018年底,全国规划和建设的“特色小镇”数量已达到2000多个。同时碧桂园、华夏幸福等房地产名企抓住“特色小镇”热潮,近几年纷纷落子特色小镇的重要形态-科技小镇,升级传统业务,以应对国家房地产调控政策严厉的趋势。本文以广州CT集团科技小镇为例,多维度详细分析其建设模式,最终为房企提供参与科技小
目的研究选择性输卵管造影和再通术治疗输卵管性不孕症的临床应用价值.方法自制同轴导管选择性插入患侧输卵管口造影,近端阻塞者用导丝再通,远端阻塞者加压推注使粘连分离,并