基于密度峰值聚类算法的研究与实现

来源 :江南大学 | 被引量 : 0次 | 上传用户:jumty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在全球范围内的快速普及,我们每天都会面对来自社会、商业、医学、工程和科学以及我们日常生活各个方面的海量数据。数据的爆炸式增长、广泛可用和巨大规模把我们带入了一个真正的数据时代。而如何可以快速方便地从这些杂乱无章的大规模数据中挖掘出有用的信息,并将这些非结构化的数据转变成知识,已经成为当今科学领域的一个热门研究课题。基于密度峰值聚类算法(Clustering by fast search and find of density peaks,FSDP)是Rodriguez等人于2014年在Science杂志上发表的一种新型密度聚类算法。因其具有算法原理简单、易于实现且能够快速发现任意形状簇的优点,自该算法被出以来,大量的研究学者对其进行了研究与应用。FSDP聚类算法的优点突出,然而其缺点也很明显。FSDP聚类算法主要存在以下几个方面的不足:(1)截断距离参数?_?的取值难以确定,主要依靠主观经验,缺乏一定的选择依据;(2)聚类中心的选取需要人为参与,聚类结果的客观性和准确性得不到保障;(3)在计算数据对象的局部密度和最小距离时,由于需要遍历数据集中所有的数据对象,导致算法的时间复杂度过高,不适用于大规模数据集的聚类分析工作。针对FSDP聚类算法存在的上述问题,本文分别出了相应的改进方案:(1)针对FSDP聚类算法中截断距离参数?_?的取值难以确定和聚类中心的选取需要人为参与的问题,出了一种将布谷鸟搜索算法与基于密度峰值聚类算法相融合的聚类算法。首先,改进后的算法利用布谷鸟搜索算法通过预定义的局部密度信息熵适应度函数,为FSDP聚类算法搜索到恰当的截断距离,并通过得到的截断距离求得数据集中数据对象的局部密度和最小距离。然后,利用布谷鸟搜索算法通过预定义的Rand适应度函数在数据集的局部密度和最小距离空间内为FSDP寻找到一组合适的局部密度和最小距离阀值(这里为了加快这组阀值的搜索速度,针对原始布谷鸟搜索算法存在后期收敛速度慢、搜索精度低的缺点,出了一种改进的布谷鸟搜索算法来替代原始布谷鸟搜索算法执行搜索操作)。通过比较数据集中数据对象的局部密度和最小距离与这组阀值的大小关系,选取局部密度和最小距离均大于这组阀值的数据对象作为聚类中心执行聚类。通过实验证明,改进后的聚类算法在不需要人为参与的情况下,不仅能够有效地自动选取到正确的聚类中心,并且可以取得较好的聚类效果。(2)针对FSDP聚类算法对大规模数据集进行聚类分析时,由于算法的时间复杂度过高而导致算法运行效率过低的问题,出了一种基于Spark的并行FSDP聚类算法SFSDP,并将SFSDP算法应用到城市热点区域探测应用中。通过对城市热点区域的有效探测验证了该算法的实用性。首先,算法通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分区;然后,利用改进的FSDP聚类算法并行地对各个数据分区内的数据对象执行聚类分析工作;最后,通过将各个数据分区聚类得到的局部聚簇集合并,生成全局聚簇集。实验结果表明,SFSDP并行聚类算法与FSDP聚类算法相比能够有效地进行大规模数据集的聚类分析工作,并且SFSDP聚类算法在准确性和扩展性方面都有很好的表现。
其他文献
探究了JNK通路对M2巨噬细胞极化及M2介导的促肿瘤效应的影响。构建单核细胞THP1来源M2巨噬细胞模型(THP1-M2),将细胞分为3组:用PMA诱导的未活化巨噬细胞组(M0),用PMA、IL-4处
本文系统梳理了上海提篮桥地区的里弄和过街楼的主要类型,分析了过街楼的相关概念、特征和作用。发现同一时期、同样类型的里弄却具有不同风格的过街楼样式,两者之间并没有非
近年来,笔者采用胆矾液治疗拔牙术后出血132例,疗效较好,现总结如下:1临床资料本组132例均系门诊病人。其中女67岁,男65例;年龄45~50岁者63例,51~60岁者38例,61岁以上者31例。均为拔牙术后出血,无全身出血倾向。2治疗
中世纪是西方文明史上一个极其重要的阶段.中世纪的政治思想特别是其晚期的宪政思想,蕴涵着许多发人深思的东西.那些蕴涵其中的要素,决定了西方政治文化的基本走向.
马克·布劳格力作《经济学方法论》的问世是经济学方法论发展史上的大事。它把波普尔证伪主义思想推到经济学方法论讨论的中心位置,突破了上个世纪80年代前经济学方法论的传
延边朝鲜族自治州位于吉林省东部,主要居住朝鲜族和汉族居民,它的州府为延吉市.为了社区医疗保健的需要,我们对延吉市新兴街民盛、民和两个社区居民6149人进行了慢性病调查,
随着物流行业的进一步发展,中小物流企业的生存面临着新的发展机遇和挑战。本文从实际出发提出了中小物流企业发展过程中所存在的一些问题,并有针对性提出了对策方案。
飞机雷击附着点的确定能够为飞机防雷设计提供依据,是飞机雷击区域划分和飞机各部件进行雷电试验鉴定的先决条件.本文提出了一种基于分形理论的飞机雷击初始附着点数值模拟的
<正>当我看到朱清河这部近40万字的《典型报道研究》著作时,有一种眼前一亮的感觉。从一定意义上说,这本书基本建构起了"典型报道"的学理框架,提升了我国典型报道的研究水平
通过文献资料调研、田野实证等方法,对西北少数民族地区体育文化资源进行了调查.结果表明,西北少数民族地区在其区域经济发展相对缓慢的过程中,却因广阔的自然地域景观的差异