基于云计算的网格化均值聚类算法的并行化研究

被引量 : 0次 | 上传用户:muscleprince
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息通讯技术的飞速发展,网络数据正以指数级的速度增长。面对如此海量的网络数据,如何快速有效地从中提取出潜在的有价值的信息以用于辅助决策,给传统的数据挖掘技术带来了巨大的挑战。最近几年迅速兴起的云计算,因其低廉的运行成本和超强的并行化数据处理能力,正受到越来越多的国内外研究学者的关注,也成为海量数据挖掘技术研究的热点。传统的数据挖掘算法在处理这些高维的、增量式的数据集时,虽然具有良好的效果,但其串行的计算方法的时间复杂度比较高,处理效率也较为低下。本文将传统的数据挖掘算法部署到云计算的环境中,实现传统数据挖掘算法的优点和云计算的优点的融合,从而提高高维、增量式数据集的数据挖掘效率。其中,主要对网格化均值聚类算法在云计算平台Hadoop下并行化的关键技术进行了研究。本文首先描述了云计算相关理论、核心技术以及云计算平台Hadoop,接着描述了数据挖掘的相关理论、技术,着重介绍了其中的聚类分析技术和基于网格的聚类分析技术,然后对基于网格的均值聚类算法进行了改进,并将其应用到云计算平台Hadoop,以实现其并行化,最后模拟了云计算平台Hadoop集群环境,通过实验对改进的网格化均值聚类算法的并行化过程进行验证、分析,并提出了下一步的研究方向和需要改进的地方。
其他文献
创新是当今社会科学领域最令人瞩目的多学科研究领域之一,创新的空间测度是经济地理学领域研究的重点和热点。文章试图将经济地理学家在进行创新的空间测度研究时采用的数据
电影语言是一种视觉交流系统的语言,这种语言是电影借用多种媒介,艺术手段,科学技术等来表达电影创作者的电影认知电影语言是一种通过视、听两种语言手段来和观众交流的。007
<正>2010年7月19日至21日,由中国地理学会经济地理专业委员会、《经济地理》编委会、华东师范大学人文地理学学科建设委员会等单位共同主办的"产业集群、区域创新与区域治理"
目前电子式互感器校验设备大部分都是基于同步脉冲方法,此种方法容易受现场实际条件限制,因而提出了一种固定延时校验方法。为了研究这两种方法的一致性,对电子式互感器进行
Android操作系统快速发展,已经成为目前智能手机最受欢迎的操作系统之一,但同时其安全问题日益凸显。在智能手机恶意软件OS平台排名中Android迅速超越Symbian,成为攻击者的头
从城市绿道的概念、作用、研究概况和生态学基础入手,探讨了绿道对城市的生态安全、生态平衡、景观格局、生物多样性等方面的重要影响。同时还介绍了广州绿道建设的成果,展望
<正> 植物,是自然风景的主体物质之一。“有名园而无佳卉,犹金屋之鲜丽人。”植物以它个体和群体的不同组合形式,千姿百态的形状,变幻无穷的色彩,诗画般的风韵,形成了各种环
《水浒传》讲述了以宋江为首的108名梁山好汉起义的故事。书中,每个英雄人物都有响当当的绰号,这些绰号虽然寥寥数字,但寓意丰富,增加了翻译的难度,同时也增加了绰号翻译研究
目的评价米氮平与舍曲林治疗老年抑郁症的临床疗效和安全性。方法 51例老年抑郁症患者,随机分为米氮平组(25例)和舍曲林组(26例)。米氮平组给予米氮平治疗,舍曲林组给予舍曲
大气激光通信系统以其容量大、体积小、保密性高等特点,正适合替代微波作为信息传输瓶颈问题的最佳解决议案,具有重大的意义和良好的应用前景。本文主要研究大气随机信道的特性