云计算环境下海量数据的并行聚类算法研究

来源 :大连海事大学 | 被引量 : 6次 | 上传用户:between930
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据分析和管理最基础的算法之一,它已经被广泛应用于计算机科学及其相关领域。然而海量数据的出现使得传统的聚类算法受到了极大的挑战,例如聚类算法的可扩展性差、效率低等。目前,以MapReduce为代表的云计算技术越来越受到商业界和学术界的关注,并且MapReduce已经发展成为最流行的海量数据处理模型之一。本文研究云计算环境下海量数据的并行聚类算法,重点是在MapReduce处理模型中对k-means、k-means++和scalable k-means++聚类算法的研究,目的是提高这些聚类算法的可扩展性和效率。论文完成的工作和主要的研究成果如下:在MapReduce并行处理框架下,针对k-means++初始化方法序列化特性导致其可扩展性差并且需要大量MapReduce作业迭代的问题,本文提出了并行可扩展的k-means++聚类算法,它的初始化方法仅需要一次MapReduce作业迭代就可以选出k个中心点,在Map阶段运行标准的k-means++初始化算法,而在Reduce阶段运行加权的k-means++初始化算法。这种方法不仅提高了k-means++聚类算法在处理海量数据时的效率,而且它被证明是k-means最优聚类结果的O(α2)近似,其中α=8(2+Ink)。考虑到MapReduce并行处理框架下scalable k-means++聚类算法的初始化方法每次迭代仍然需要启动两个MapReduce作业的缺点,通过Map阶段的过采样技术以及Reduce阶段的修正技术,提出了快速的scalable k-means++聚类算法。它的每次迭代仅需要一个MapReduce作业,节省了大量的I/O成本和时间,提高了scalable k-means++聚类算法的效率。MapReduce环境下的k-means聚类算法在处理海量的倾斜数据时会导致Reduce任务的负载不均衡,使得Reduce任务的运行时间差异较大,整个聚类算法的运行时间变长,严重降低了云计算平台的资源利用率。针对此问题本文提出了基于抽样估计的数据划分方法。该方法采用抽样估计理论对原始数据进行分析处理,并根据提出的C2和CSC划分方法得到较好的数据划分方案,最后把该方案应用于MapReduce k-means聚类算法中,实验结果表明此方法平衡了Reduce任务的负载,缩短了聚类算法的运行时间。
其他文献
青藏高原的环境变化对全球变暖为变化趋势的气候具有重要的响应作用。而湖泊是全球气候变化的指示器。青藏高原地区湖泊众多且成因多样,由于环境恶劣极少受到人为扰动。因此
资产减值准则的制定实施是我国会计制度逐步完善的重要标志,有利于资产负债表更加公允地反映资产的真实价值。本文就资产减值确认的标准、减值迹象的判断、时点、方式和减值测
中国传统绘画作品历经千百年仍然焕发着不凡的神采,仍然保存色彩浓丽厚重,进一步证实天然矿物质材料的稳固不变性。因此,我们应该重视传统矿物质颜色的传授,让学生们能较好地
管道支架在工业建设工程中应用广泛,它在厂区中分布广,数量多,占据大量工程投资,而这其中滑动支架所占工程量比例尤为巨大,所以有必要对滑动支架设计做优化分析。随着工业的
随着现代社会上计算机技术及网络技术不断发展,计算机网络在社会上各个领域内也有着越来越广泛的应用,并且发挥着十分重要的作用。在当前计算机网络应用过程中,为能够使其得
通过举例说明,用模糊数学中模糊综合评判的正问题和逆问题来解决对各类商品进行综合评价。
引江济淮工程是一项重大战略性水资源配置及综合利用建设工程,工程建设中沿线的软土变形、岩溶渗漏和塌陷、地面沉降、采空塌陷、地下水污染和水环境污染、地质遗迹保护等环
统计作为企业管理中的基础工作,主要任务是充分发挥统计信息、咨询和监督的功能作用,旨在提高项目质量和效益。在企业的生产经营活动中,计划统计工作不仅是项目管理的重要部
随着互联网、个人计算机和移动计算平台的迅速普及,各种各样的恶意软件也层出不穷,以极快的速度增长,严重威胁各类计算机用户的信息安全。本文针对恶意软件行为检测与分析中
当前,海上安全已经成为地缘战略思考的重要取向。新中国建立后,国家安全威胁主要来自陆上,维护国家安全主要就是保卫陆地领土的完整和安全。但是,1990年代中期以来,特别是近