基于核心点的大数据聚类算法

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:reeyung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着存储技术和网络技术的疾速发展,数据量呈现爆炸式增长,数据结构也日益复杂。如何从海量数据中挖掘出有价值的信息成为当下研究的热点。聚类是数据挖掘领域重要的数据处理技术,已被广泛应用于机器学习、模式识别等领域。根据聚类的初始条件和应用准则的不唯一性,各式各类的聚类算法应运而生。但面对海量的数据,一些经典的聚类算法往往力不能及。如传统的谱聚类和近邻传播算法(AP算法),能处理任意形状的数据集并且聚类质量高,但由于这两种聚类算法的计算复杂度太高,都无法聚类大数据。近些年,研究者相继提出了一些大数据的聚类思想,其中基于抽样的大数据聚类算法应用较为广泛。但已有的抽样方法往往都无法较好的平衡样本集的质量和抽样方法的计算复杂度。针对已有抽样方法的不足,本文提出了一种基于相似性的大数据抽样方法,并完成对大数据的分组。该方法的大致过程是:首先从大数据集中随机选取一个小规模样本子集;然后,计算大数据集与样本集的数据对之间的相似性,并按照相似性最高选出核心点;最后,每个核心点代表一个分组,剩余点分配到与其相似性最高的核心点所在的分组,完成对大数据的分组。该抽样方法以较小的精度损失换来算法速度和样本集质量的大幅度提高。理论分析和实验结果表明:该抽样方法不仅计算复杂度低,便于操作,而且选出的核心集能较好的体现大数据集的整体信息,对噪声鲁棒,这充分说明了该抽样方法具有较好的适用性和有效性。针对经典聚类算法在大数据面前失效的问题,本文结合上述抽样思想,提出了一种基于相似性的大数据聚类框架,并将经典的谱聚类和AP算法纳入该框架,将这两种经典算法的优异性能成功推广至大数据。首先,利用上述抽样方法得到核心集并完成大数据的分组;然后,在核心集上应用谱聚类和AP算法得到聚类结果;最后,根据核心集与原始数据集的对应关系完成对整体的聚类。理论分析和实验结果表明:推广后的CBSC和CBAP不仅能处理大数据的聚类难题,而且继承了原聚类算法的优势,即可以聚类任意形状的数据集且对噪声鲁棒,并仅有近似线性的时间复杂度,非常适合处理大数据集。该框架以较小的精度损失换来算法效率的大幅提升,并将经典的谱聚类和AP算法推广至大数据。真实数据集和人工数据集的实验结果均说明了推广后的CBSC和CBAP算法的高效性。
其他文献
为解决三级四段式真空回潮机蒸汽消耗量大等问题,采用汽机联用技术对其抽空系统进行了改进,将真空回潮机的三级、四级蒸汽真空泵改为由电机驱动的水环式真空泵,根据箱体压力
明确引起烟支霉变的微生物及其生物学特性,从霉变烟支中分离到4株霉菌。采用真菌形态学和rDNA-ITS分子标记相结合的方法,对这4株霉菌进行鉴定,并对其生物学特性进行研究。结果表
IT技术交流社区是广大技术爱好者和从业人员交流和分享计算机与互联网技术的重要平台。技术社区中的用户每天都会产生大量的技术文章,以及浏览、收藏、评论、点赞等行为。从用户产生的历史数据中分析出用户兴趣与技能的变化,有助于技术社区为用户提供更精准的个性化服务,这对用户和技术社区都有着重大的意义。传统的推荐算法往往着眼于“用户-物品”的关联关系进行研究,而较少考虑用户与物品发生关系的时间顺序。而将用户历史
<正> 1 利比希最小因子定律利比希最小因子定律,是由德国化学家利比希(Ljebig,1840)在《有机化学及其在农业和生理学中的应用》一书中首先指出:作物的产量一般不是受到水、CO2:
创新对于发展中国家的崛起和落后地区的发展具有不可替代的战略意义,中国正处于经济转型重要时期,经济结构转型是一个重要挑战,经济发展的侧重点亟需转变,由单纯重视经济发展
六堡茶是广西的一种黑茶,其“红、浓、陈、醇”的品质特征,源于两次“渥堆”和两次“汽蒸”的特殊制作过程,和六堡茶渥堆工艺及后期的存放中微生物的重要作用。微生物生命活
经济全球化的发展趋势,使港口在各国社会经济发展和国际经济交往中的作用和地位发生了深刻的变化。依托港口,发展现代物流,已经成为港口寻求长远发展、增强竞争力的重要战略
为了选取适用于不同档次卷烟的加料工艺,评价与比较了片烟加料和叶丝加料工艺制成的一、二、三类卷烟产品及叶组配方感官质量风格及差异,结果表明:1相比传统片烟加料工艺,叶丝
<正> 西部有辽阔而美丽的草原,它涵养着中华民族赖以生存的长江、黄河,它装点并构成了中华民族世世代代休养生息的美好家园。 我国天然草原近60亿亩,占国土面积的42%。而西部
背景和目的恶性肿瘤骨转移是微环境作用的结果。临床工作中发现骨转移合并骨髓转移的患者治疗效果差,且乳腺癌患者中合并骨髓转移的比例最高。研究骨转移和肿瘤微环境的关系具有重要意义。骨是晚期恶性肿瘤常见的转移部位,晚期肺癌、乳腺癌骨转移的发生率分别为40%,70%。骨转移患者常出现严重的骨痛、病理性骨折、脊髓神经压迫、高钙血症等骨相关事件(skeletal-related events,SREs),严重缩