两种大数据技术架构下的数据挖掘算法研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:samhsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网行业的不断发展壮大所带来的数据风暴充斥着人们的生活,特别是由此而带来的商业价值吸引着众多人的眼球,而巨大的商业价值来源于对海量数据的提取分析,但是传统的数据挖掘技术在处理速度上已经不能很好的满足人们的科研和商业信息挖掘需求,云计算和并行化的快速发展为解决这些问题带来了希望。  目前,Apache基金会于2005年开发出来的Hadoop分布式计算架构在海量数据处理上已经发展的比较成熟,应用的也比较广泛,但随之而来也暴露出了一些内在的问题。由UCBerkeley的AMP实验室开发的基于内存的分布式计算架构Spark在对海量数据的处理和机器学习方面很好的弥补了Hadoop的缺陷,相对于传统的数据处理而言,在可扩展性,灵活性,数据的分割和迭代处理上有较大的改进,能够很好的适应并行计算相关的应用开发。  经典的数据挖掘算法在数据处理上一直比较受科研工作者的重视,特别是K-means聚类算法使用更加广泛,而算法性能优劣的衡量离不开它所依赖的数据处理架构,而数据处理架构的性能往往也是在算法的执行过程中得到体现。本文为了真正比较Hadoop和Spark两种数据处理架构的性能上的差异也是采用基于K-means的聚类算法的实现来比较的。  每种数据处理平台的设计,设计者都会考虑到平台的可扩展性、容错性以及灵活性等等,可扩展性又分为横向可扩展性和纵向可扩展性,本文重点比较了Hadoop和Spark两种数据处理架构,并就二者的I/O时间消耗以及总时间消耗给出了相关的理论模型和理论分析证明;实验部分就K-means算法的并行实现来对比二者的计算性能、纵向可扩展性、内存的消耗等方面。理论和实验研究表明,随着数据量的不断增长,Spark架构的性能更优,但是Spark的高内存需求对以后的应用研究也提出了一定的挑战,Spark的内存优化研究将成为以后的一个重要研究方向。
其他文献
本文从传统的软件测试技术出发,结合面向对象软件的特点,分析了面向对象的软件技术对传统软件测试技术的影响,在此基础上,讨论了面向对象软件的测试技术。  介绍了类测试。类簇
本文首先分析了Native-XML数据库的存储查询结构,接着给出XQuery查询过程模型,并讨论XQuery规范化和查询计算求值等部分,接着详细探讨了XOuerv常用的查询算法。提出基于文档类型
本文详细分析了高速公路上行使汽车的制动过程,对本车以及前车的速度、相对速度和两车纵向间的安全距离等汽车防追尾碰撞系统的关键问题进行了探讨和研究,并结合现代电子、计算
本文的主要研究内容是围绕“基丁WebGIS的房地产信息发布系统”的设计与开发,首先论述了人众对把WEBGIS技术应用到房地产信息发布的需求。在这种需求下,首先研究了WEBGlS的实现
随着网络安全问题的日益突出,防火墙、入侵检测系统等众多安全设备被部署到网络中。这些安全设备的使用在不同的侧面提升了网络的安全性,但众多异构的安全设备难以正确管理和配
本文利用MAPGIS提供的强大功能,将地理信息管理和办公自动化相结合,实现满足深圳盐田港集团规划管理部门需要的港区规划管理信息系统。着重研究GIS技术在沿海港口城市特定社会
人脸识别是近年来模式识别、图像处理、机器视觉、神经计算以及认知科学等领域研究的热点课题之一,还受到了工业界的极大关注,并已取得了丰硕的研究成果。人脸识别系统的性能不
实时系统在各领域尤其是嵌入式领域有着广泛的应用,它一般被用在对时间要求非常高的装置上。对于很多实时系统,如果其设计在逻辑、时序方面出现偏差,将会引起严重的后果。随着实
本文在大量调研的基础上,论述了国内外城市地质信息系统数据组织与管理发展状况和趋势,重点论述了当前我国城市地质数据组织与管理技术的发展遇到的问题,而后提出了基于城市地质
本文提出了在客户端采用动态反馈缓冲的算法。该算法的原理是在客户端动态划分一段内存空间作为来自发送端的流媒体的数据缓冲,根据不同网络情况动态改变该缓冲区的大小,使得客