基于Hadoop平台的网络数据并行处理系统设计与实现

来源 :东南大学 | 被引量 : 6次 | 上传用户:ppc8xzf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的到来,给人们的生活带来各种各样的便利,同时也意味着会产生越来越多的数据,如何从这海量的数据中挖掘价值将是一个非常有价值的课题。聚类算法就是其中一种从海量数据中挖掘价值的工具,它有着非常广泛的使用场景,包括对一些未知的物品进行分类,同时可以进行相应应用。随着数据量的剧增,聚类算法在单机环境下开始越来越吃力,越来越面临瓶颈。因此,海量数据对聚类算法以及相应的处理系统提出了新的要求。本文是基于Hadoop平台的网络数据并行处理系统设计与实现。本文首先对Spark相关性能进行优化研究,主要包括两部分:开发过程中相关性能优化研究,shuffle性能优化研究。开发过程中相关性能优化研究主要研究了避免使用shuffle算子以及对多次使用的RDD进行持久化这两个方面。shuffle性能优化主要研究了 sort shuffle和hash shuffle各自的适用场景以及相应的优化,并通过实验来验证。聚类算法面临海量数据处理遇到的瓶颈越来越大,为了开发并行化聚类算法来应对海量数据处理难的问题,本文引入Hadoop平台并在该平台上搭建Spark平台。针对k-means算法存在随机选取初始中心导致迭代次数过多的问题,本文提出了一种基于Spark平台的由克洛斯卡尔算法改进的k-means算法来解决初始中心选择问题,通过迭代次数和迭代时间这两个指标来评价实际效果。为了更好展示实验结果,本文将Spark的k-means++算法作为比较对象,实验结果显示,基于Spark平台的由克洛斯卡尔算法改进的k-means算法比Spark的k-means++算法有更少的运行时间以及更少的迭代次数。针对k-means算法没有考虑向量之间相似性的问题,本文提出了一种基于Spark平台的由克洛斯卡尔算法和谷本距离改进的k-means算法,使用误差平方函数作为评价指标,与Spark的k-means++算法以及基于Spark平台的由克洛斯卡尔算法改进的k-means算法相比,具有更少的误差平方函数值,也就得到更好的聚类结果。本文最后搭建了一个完整的基于Hadoop平台的网络数据并行处理系统,该网络数据并行处理系统的架构设计使得系统本身具有大数据、高复杂度数据计算的能力。Hadoop计算平台的引入使得系统可以依赖廉价硬件资源,提供高计算能力与存储能力,同时也使系统具备很好的横向扩展能力,面对数据规模的上升,只需要通过简单添加机器来增强集群处理能力。此外,该网络数据并行处理系统具有普遍适用性,不仅仅适用于电影推荐,网络异常检测,也适用于任何使用聚类算法进行数据处理的场景。
其他文献
《粤港澳大湾区发展规划纲要》发布之后,区域内的城市纷纷抢抓机遇,进行新一轮的产业布局。在此背景下,本文从大湾区建设珠澳极点的视角,将珠澳航空产业,作为一个整体进行研
创新贵在持续,也难在持续,持续创新能够提升企业的核心竞争力。但是对于我国众多的企业而言.如何进行持续创新,采取什么技术创新战略却是一个现实的问题。在分析了自主创新战略和
高浓度的硅会对反渗透膜造成不可逆的污染。在煤化工工业废水零排放或近零排放系统中,硅垢常常会成为高盐水回用系统的瓶颈。硅在反渗透膜表面的沉积和结垢是一个复杂的过程,
利用2016年江西省、江苏省的农村入户调查数据,从劳动力要素禀赋和规模经营演进的视角,以水稻机插秧技术为例,分析了农户机械技术选择的作用机制和影响程度。研究结果表明:在
城市供水安全事关重大。通过对山东省临沂市兰山城区供水现状的分析,指出了目前供水安全存在的问题,指出了解决存在问题应采取的措施。认为,做好水源规划,加强水源保护,完善
目的探讨浅低温降低流量体外循环在心脏不停跳直视手术中血液保护的作用。方法选择30例符合条件的心脏不停跳二尖瓣置换手术患者,根据体外循环温度及流量控制的不同分成两组。
日前,浙江省商务厅、浙江省财政厅下发通知,开展省级再生资源回收利用体系示范城市建设活动。
接线座作为电气联接的一种无源器件已广泛应用于成套电器设备的配线系统中。为保证电气联接的可靠性,接线座压线结构的设计是关键的问题。本文以电接触理论为依据,对压线结构的
所有制因素是导致我国中小企业贷款难的重要因素。文章通过构建间接融资所有制因素分析模型,对比分析了存在与不存在所有制差别的情况,并对模型进行了扩展分析,强调了广泛存在于
近年来,盘锦市致力于完善创新型创业服务体系,将促进小微企业蓬勃发展当作实现全面经济转型的一项重要抓手。本文分析了盘锦市小微企业发展中的制约因素,并就其未来发展作了