基于MapReduce的自适应密度聚类算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户：hj418057259

【摘要】

：

随着数据的爆炸式增长，单机聚类算法无论是存储能力还是处理能力都无法满足海量数据的聚类，必须寻求并行化的解决方案。Google提出的分布式编程模型MapReduce给并行聚类带来了

【作者】

：

杨亚军

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2014年期

【关键词】

：

MapReduce 自适应变化密度 k最邻近邻居基于密度的聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据的爆炸式增长，单机聚类算法无论是存储能力还是处理能力都无法满足海量数据的聚类，必须寻求并行化的解决方案。Google提出的分布式编程模型MapReduce给并行聚类带来了新的希望，因此，论文提出了一种基于MapReduce的自适应密度聚类算法。论文首先针对DBSCAN无法处理变化密度的聚类和参数敏感的问题进行了改进，提出了一种自适应的密度聚类算法ADC。算法将一个点到其第k个最邻近邻居的距离定义为密度，使用密度变化率来识别簇边界，当且仅当一个点的最邻近邻居中至少有k个点的密度与该点的密度变化率小于用户给定的阈值，该点才为核点，并且阈值在运行时自动动态调整。其次，论文在ADC的基础上，提出了一种基于MapReduce的聚类算法MR-ADC，算法包括五个步骤：1）对数据进行归一化；2）将归一化后的数据均匀的划分为若干个块；3）在划分后的每一个块上分别应用改进的ADC算法进行聚类，并且将靠近划分边界的点写入HDFS；4）对划分边界的点进行分析，将局部簇合并为全局簇；5）根据局部簇与全局簇的映射关系，对局部聚类结果进行全局簇标号。论文在一个包含4个节点的Hadoop集群上对算法进行了实验分析，包括聚类的效果和算法的时间开销。实验结果表明，ADC算法可以处理任意大小、形状和密度的聚类，并且由于自适应，参数的设置更加容易，MR-ADC算法可以取得和单线程一样的效果，并且运行时间远远小于单线程算法，适合处理海量数据聚类。

其他文献

基于CUDA的并行数字图像加密算法研究

数字图像具有数据冗余大、表达信息丰富的特点,传统加密算法并没有针对这些特点进行设计,无法安全高效的完成图像加密任务,因此设计结合图像特点的加密算法是有必要的。另一

学位

数字图像加密CUDA扩散码布尔函数混沌系统置乱扩散

基于相容关系的属性约简研究

粗糙集（Rough Sets）理论是波兰学者Pawlak教授提出的一种处理不精确，不确定数据的有效工具。经过30多年的发展，粗糙集理论已广泛的应用于知识表示、数据挖掘、机器学习、模式识别

学位

粗糙集相容关系属性约简区间值决策系统

基于VxWorks的应用层SSH安全协议研究与改进

随着嵌入式操作系统的广泛应用和不断发展，特别是嵌入式设备与网络结合的应用范围日益广泛，嵌入式系统网络应用程序的安全性问题愈发凸显，已成为目前急需解决的问题。VxWorks操

学位

VxWorks安全通信SSH协议会话重获认证服务器

电子商务交易行为的信任机制研究

互联网和Web承载着丰富的跨时空信息，为社会和商务的发展提供了动态、开放和便捷的环境。然而在虚拟化的网络中，与不相识的人进行交易，如何保证交易可靠、安全，以及确保服务质量

学位

电子商务信任模型声誉协同推荐动态信任

基于存储特征的HBase数据恢复技术研究

数据库作为数据存储和管理的重要手段,在各行各业得到了越来越广泛的应用,数据库取证自然也成为了数字取证领域的研究热点之一,其中恢复已删除的数据更是数据库取证的重要组

学位

HBase数据库HDFS文件系统数据恢复HFile预写日志

Android系统恶意代码检测与防御技术研究

当前移动网络的快速发展,尤其是当前的3G和4G网络的快速兴起,移动设备日益成为人们生活工作中必不可少的工具。移动终端的普遍使用带来了一系列的问题,特别是信息安全问题是

学位

Android系统恶意代码SVM机器学习

ECC新型双域Co-Z标量乘算法研究及硬件实现

椭圆曲线密码体制（Elliptic Curve Cryptology，ECC）由于其安全性能好、存储空间小、带宽要求低等特点，在嵌入式等面积、功耗受限的环境中应用得越来越广泛，近年来已被广泛制定于各

学位

ECC标量乘co-ZNAFSafe-error错误攻击

时变数据的压缩与放大可视分析技术

随着智能设备的发展,在医疗、教育和公共服务等社会领域产生并累积了巨量的时变数据。由于时变数据数据量大,需要对它进行压缩存储。同时时变数据变化复杂,发现数据中的特征

学位

时变数据可视分析扩散曲线矢量场数据压缩与还原

网络信息处理并行算法及传播规律研究

微博是近年来发展最快的网络媒体之一，随着其用户规模的不断扩大，其产生的信息量和社会影响力也越来越大。同时，网络信息的泛滥阻碍了用户体验的提升。因此，研究微博信息的规律并

学位

微博网络MapReduce模型热点发现并行算法信息处理传播规律

MD5算法的分析与研究

Hash函数是密码学重要的组成部分,它广泛应用于电子商务、信息安全和电子政务等安全性要求比较高的领域中,同时也是实现数字签名、消息的完备性和消息可认证性的重要工具。MD

学位

Hash函数MD5碰撞消息修改MD结构

基于MapReduce的自适应密度聚类算法研究

与本文相关的学术论文