论文部分内容阅读
雾霾已经在气候、环境、健康、经济等方面造成显著的负面影响。雾霾的形成和演化有它自身的机理和规律,不同的地区,城市雾霾的形成原因、表现形式都不相同,如今对雾霾的科学认识仍不系统、完整,究其原因是没有对雾霾进行透彻地感知、认知和充分地分析。雾霾的演化与气象要素间有着密切的关系,由于气象部门达到了较高的信息化程度,积累了大量气象相关的数据,因此,利用数据挖掘的关联性理论方法可从中发现雾霾与气象要素间的规律,从而提高雾霾预报预测的准确率,指导人们的生产生活。本文首先对数据挖掘方法在国内外的研究现状进行了汇总,并对数据挖掘在气象分析方面的应用进行深入研究,详细分析了雾霾和气象的相关知识及国内外的相关研究现状。其次,对关联规则挖掘的经典算法Apriori的相关理论、实现流程及优缺点进行了分析;对云计算的相关理论及目前较流行的大数据处理平台Spark进行了概述;对雾霾的相关知识进行了介绍,并且分析了气象要素对雾霾的影响。在此基础上,针对大数据提出了一种基于Spark的关联规则挖掘算法AMRDD(Apriori Matrix Resilient Distributed Datasets),该算法将频繁项集用矩阵表示,基于HDFS存储,利用局部剪枝和全局剪枝原理,缩减了候选频繁项集的数量,利用Spark基于内存的计算,提高了时间效率。最后,将该算法应用于雾霾与气象要素间的相关性研究。构建雾霾与气象要素数据流间的关联性分析平台测试本文提出的AMRDD算法的性能及在雾霾研究方面的应用,使用3台实体机组成的局域网搭建了Spark平台,实现AMRDD算法。并分别用2013年10月到2015年10月的北京、长春、石家庄三个城市的气象资料数据集作为测试数据。实验结果表明,与传统的方法得出的结论是一致的,表明了该算法适用于雾霾与气象要素相关性方面的研究。同时,用随机生成的大数据集对算法进行了实验,AMRDD算法与传统的Apriori算法和在Hadoop上实现的Apriori算法相比,在大数据分析方面该算法时间效率明显提高。