面向海量数据的改进最近邻优先吸收聚类算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：chenenm0702

【摘要】

：

针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引人MapReduce并行框架,利用Carwpy粗聚类优化计算过程,并对聚簇交叉部分

【作者】

：

宁可孙同晶徐洁洁

【机构】

：

杭州电子科技大学自动化学院,浙江省电子信息产品检验所

【出处】

：

计算机工程

【发表日期】

：

2018年4期

【关键词】

：

海量数据聚类 MAPREDUCE框架最近邻优先吸收聚类算法 Canopy算法并行化 massive dataclusteringMapReduce fra

【基金项目】

：

浙江省信息安全重点实验室基金(KYZ066S16004)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引人MapReduce并行框架,利用Carwpy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进。采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析。

其他文献

自由理论的神学定位:欧洲中世纪的自由观念

在基督教占统治地位的中世纪,人们的一切行为和思想都与神学相关,包括对自由的向往与追求也主要是通过神学的外衣表现出来。在基督教神学中,＂上帝面前人人平等＂的基本教义、＂原

期刊

中世纪自由平等原罪政教分离

刍议当代中国古典舞发展与困境

中国古典舞作为我国传统的舞蹈形式,不仅有着独特的审美特征,还与我国的传统文化有着密切关联,因此对中国古典舞的弘扬与发展能有效促进我国传统文化的传承。随着全球化经济

期刊

中国古典舞传统文化文化传承发展困境

基于机器学习的网页暗链检测方法

在大数据时代下,传统暗链检测技术无法在海量网页中快速准确地识别出遭遇“暗链攻击”的网站。为此,提出一种引入机器学习的方法研究网页的暗链检测。该方法结合暗链的域名、

期刊

暗链特征提取交叉验证分类与回归树随机森林梯度提升决策树hidden hyperlinkfeature extractioncross validat

上市公司股票价格与财务指标相关性的实证研究

股票市场是资本市场中的一个重要组成部分,尤其对于中国这个起步较晚、还处于成长期的年轻的资本市场来说,股票市场更是投资者热衷于参与的市场。对于中国的股票市场来说,机

学位

股票价格财务指标相关性中国A股市场

考虑不确定性的地震烈度与地震动参数关系研究

采用97次地震中800个强震动观测台站所获得的强震动记录及震后调查地震烈度作为基础数据,得到地震烈度与地震动参数PGA和PGV并不是一个确定性的对应关系,不确定性是一种客观

期刊

不确定性地震烈度地震动参数地震灾害评估

亮氨酸氨肽酶-3(LAP3)在非小细胞肺癌中的表达及临床意义

肺癌是世界上最常见的恶性肿瘤，在发达国家中，肺癌导致的死亡率居于所有恶性肿瘤的首位。非小细胞肺癌占所有肺癌患者80％以上，虽然经过数十年的探索和研究，肺癌的预后，尤其是非小细

期刊

亮氨酸氨肽酶-3非小细胞肺癌免疫组织化学总生存期

韭菜开花规律观察初报

期刊

韭菜花陕西汉中雪里青韭菜开花

利率市场化进程中利率汇率联动机制的实证分析

利率和汇率分别是一个国家法定货币的对内和对外价格,在开放经济环境中,他们之间往往具有较强的联动关系,而这种关系是该国维持其经济内部均衡和外部均衡的关键因素。1996年

学位

利率汇率SVAR模型联动机制

工程全生命周期造价管理中BIM技术的应用研究

文章主要就工程造价管理过程中应用BIM技术可以通过三维图形算量软件对整个工程全生命周期进行计算,其利用数字建模技术可以大大提高工程造价的管理效主,从而提高企业的生产

期刊

工程建设全生命周期造价管理BIM技术

面向海量数据的改进最近邻优先吸收聚类算法

其他学术论文