论文部分内容阅读
随着云计算、物联网和移动互联网的快速发展,大数据正成为信息技术的新热点,产业发展的新方向,对人类的生产与生活产生巨大影响。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理平台的分析与挖掘,产生新的知识用以支撑决策或业务智能化运转,大数据时代的到来给数据管理与分析提出了新的挑战,数据处理方法的合理性和时效性成为了大数据统计分析的研究热点。近年来,基于数据挖掘算法的大数据分析是研究的重要方向,但大都是以传统单机环境下数据挖掘算法改进为主,由于受内存、扩展性等限制,不能有效满足激增的海量数据处理需求,为此本文研究传统数据挖掘算法在MapReduce并行编程环境下的实现方法,同时,针对大数据时代海量数据的存在形式及Hadoop平台处理海量小文件数据时的性能瓶颈,提出海量小文件处理策略,最后,以出租车GPS数据为实例,对MapReduce实现短时交通路预测的高效性进行验证,在Hadoop环境下,改进基于MapReduce的K近邻短时交通流预测算法,以提高预测准确性。基于以上情况,本文具体做了以下三项工作:(1)针对单机环境下传统数据挖掘算法在对大规模数据分析时存在“内存消耗高、计算性能低、扩展性差和可靠性弱”等问题,提出MapReduce并行环境下KNN、Apriori和K-Means算法的实现方法,并以“可行性、加速比和扩展性”为指标,采用不同大小的真实数据集,在由不同节点组成的集群中进行实验验证。实验结果表明,该实现方法是可行和有效的,能提高KNN、Apriori和K-Means算法的整体性能和挖掘效率,以满足大规模数据挖掘的需要。(2)分析了Hadoop平台的设计初衷是专门处理流式大文件,而现实环境中大部分数据是以海量小文件形式存在,针对Hadoop在处理海量小文件时,存在“内存消耗高、处理效率低”等固有缺陷,本文中实现了CombineFileInputFormat(CFIF)、Hadoop Archive(HA)、Sequence File(SF)等三种处理海量小文件的有效方法,并结合不同用户的实际需求,提出了相应的处理策略,以"Namenode内存消耗、MapReduce运行速度”为指标,验证策略选择的合理性和有效性。实验结果表明,所实现的处理方法和提出的策略选择,能最大化地发挥Hadoop的整体性能,提高海量小文件的处理效率。(3)以海量出租车GPS数据为研究实例,一是利用(1)所述基于MapReduce的并行化K近邻算法解决海量GPS数据预测短时交通流时效率低的问题;二是在短时交通流预测前,引入(2)所述小文件处理方法和策略,对大量出租车GPS数据小文件进行预处理,弥补海量小文件读写速度慢、处理效率低等缺陷:三是在MapReduce环境下,对K近邻短时交通流预测算法的状态向量和距离向量进行改进,解决短时交通流预测准确性问题。通过本文的理论研究、实验验证及实例分析,希望为基于Hadoop平台的大数据分析提供有价值参考,有效解决大数据时代海量数据挖掘与分析问题。