基于Hadoop的并行化算法实现及GPS数据实例分析

来源 :西南大学 | 被引量 : 0次 | 上传用户:xiao4869
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、物联网和移动互联网的快速发展,大数据正成为信息技术的新热点,产业发展的新方向,对人类的生产与生活产生巨大影响。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理平台的分析与挖掘,产生新的知识用以支撑决策或业务智能化运转,大数据时代的到来给数据管理与分析提出了新的挑战,数据处理方法的合理性和时效性成为了大数据统计分析的研究热点。近年来,基于数据挖掘算法的大数据分析是研究的重要方向,但大都是以传统单机环境下数据挖掘算法改进为主,由于受内存、扩展性等限制,不能有效满足激增的海量数据处理需求,为此本文研究传统数据挖掘算法在MapReduce并行编程环境下的实现方法,同时,针对大数据时代海量数据的存在形式及Hadoop平台处理海量小文件数据时的性能瓶颈,提出海量小文件处理策略,最后,以出租车GPS数据为实例,对MapReduce实现短时交通路预测的高效性进行验证,在Hadoop环境下,改进基于MapReduce的K近邻短时交通流预测算法,以提高预测准确性。基于以上情况,本文具体做了以下三项工作:(1)针对单机环境下传统数据挖掘算法在对大规模数据分析时存在“内存消耗高、计算性能低、扩展性差和可靠性弱”等问题,提出MapReduce并行环境下KNN、Apriori和K-Means算法的实现方法,并以“可行性、加速比和扩展性”为指标,采用不同大小的真实数据集,在由不同节点组成的集群中进行实验验证。实验结果表明,该实现方法是可行和有效的,能提高KNN、Apriori和K-Means算法的整体性能和挖掘效率,以满足大规模数据挖掘的需要。(2)分析了Hadoop平台的设计初衷是专门处理流式大文件,而现实环境中大部分数据是以海量小文件形式存在,针对Hadoop在处理海量小文件时,存在“内存消耗高、处理效率低”等固有缺陷,本文中实现了CombineFileInputFormat(CFIF)、Hadoop Archive(HA)、Sequence File(SF)等三种处理海量小文件的有效方法,并结合不同用户的实际需求,提出了相应的处理策略,以"Namenode内存消耗、MapReduce运行速度”为指标,验证策略选择的合理性和有效性。实验结果表明,所实现的处理方法和提出的策略选择,能最大化地发挥Hadoop的整体性能,提高海量小文件的处理效率。(3)以海量出租车GPS数据为研究实例,一是利用(1)所述基于MapReduce的并行化K近邻算法解决海量GPS数据预测短时交通流时效率低的问题;二是在短时交通流预测前,引入(2)所述小文件处理方法和策略,对大量出租车GPS数据小文件进行预处理,弥补海量小文件读写速度慢、处理效率低等缺陷:三是在MapReduce环境下,对K近邻短时交通流预测算法的状态向量和距离向量进行改进,解决短时交通流预测准确性问题。通过本文的理论研究、实验验证及实例分析,希望为基于Hadoop平台的大数据分析提供有价值参考,有效解决大数据时代海量数据挖掘与分析问题。
其他文献
近年来,随着数据库技术以及数字化技术的不断进步,针对高维时间序列的数据挖掘研究引起了越来越多学者广泛的兴趣。然而,由于数据维度的增多,大大增加了数据挖掘算法的复杂性,使得
从上个世纪九十年代初期开始,基于内容的多媒体检索就开始成为了在多媒体信息检索领域中的一个研究热点。并且基于内容的多媒体检索的研究也一直是计算机视觉领域中的一个非
汉语依存关系解析是句法分析的重要方法,而句法分析是自然语言处理的关键技术。汉语依存关系解析是基于汉语依存文法来确定句子中词与词之间的依存关系。词是句子结构中的最
伴随着Internet规模的迅速增长和内容的不断丰富,同时也给人们进行有效访问资源带来了困难。由于提问的不专指和文献资源量巨大的矛盾,系统往往会返回数量庞大的检索结果。若
图的交叉数是衡量图的非平面性的一个重要参数,计算图的交叉数是非常困难的,Garey和Johnson在1983年证明了计算图的交叉数问题是NP完全的。目前只有很少的图的交叉数的精确值是
随着下一代网络技术的发展,传统PSTN网络上的语音业务将逐步迁移到IP网络上。VoIP技术为基于IP网络的语音通信提供了强大而有效的手段,以该技术为基础的语音通信将成为下一代网
随着网络和网络技术的发展,全球互联网规模的日益扩大,网民数量的大量增加,人们在越来越依赖网络的同时,大规模的网络攻击和病毒扩散也日趋频繁。如何保障网络与信息系统的安
面向服务架构(SOA)已被广大企业所接受,为其提供有效的IT解决方案,使企业能够对市场做出快速反应。现有的SOA平台多是以Web服务为基础,建立在企业服务总线(ESB)上的一种技术
近几年来,长江中下游河道采砂一直处于难于管理状态。长江中下游河道范围广,江砂被盗采的地点多,采砂监管和执法队伍人员不足,有相当数量的非法采砂事件难以发现和处理。对非
合作型多智能体决策技术研究给定的一组智能体如何协调彼此的动作,与环境进行交互,共同完成一个长远的目标。合作型多智能体决策技术有相当多的应用背景。例如,机器人足球队,球员