论文部分内容阅读
随着经济和科技的不断发展,中国的大气污染监测网络和气象监测网络不断进步和完善,每个地区的空气和气象监测系统都已经积累了大量数据,对空气质量数据和气象数据构建科学、合理、及时、有效的数据分析系统,能够使空气质量监测数据得到充分利用,满足中国大气污染治理对信息的分析、决策要求。本文以2014-2019年中国所有空气质量和气象站点的监测数据作为模拟数据,以Hadoop分布式大数据框架、Hive数据仓库、Spark数据计算引擎、Pyecharts可视化工具作为技术框架,设计并实现了一个拥有数据收集、存储、分析、可视化功能的中国空气质量统计分析系统。在数据仓库的基础存储要求上,设计了具有分层存储、分区存储功能的中国空气质量数据仓库。分层存储是指根据不同的数据使用需求,将原始数据形成若干张数据表分层存储在数据仓库中,这种分层存储能够提高空气质量数据的使用效率。分区存储则是指根据数据的采集时间形成分区信息进行分区存储,经实际使用测试,分区存储策略可有效提高中国空气质量数据仓库中数据的检索效率。对于空气质量的统计分析主要分为空间分布分析、时间序列分析与预测,气象因素影响力分析,分别从年、季、月、日的时间尺度根据历史数据对比分析了中国各地区的空气质量的时空演化特征,对最新数据的空间分布情况进行展示,并对京津冀地区、长江三角洲、珠江三角洲这三大重点地区未来空气质量的水平进行预测。气象因素对空气质量的影响力趋势分析分为单项气象因素相关性趋势分析和多项气象因素整体影响力趋势分析,主要讨论了大气温度、地表温度、气压、降水、湿度、日照、风速这几项气象指标对空气质量的影响。通过使用数据仓库中存储的数据,中国空气质量统计分析的主要观察结果如下:1、中国空气质量年际分布显示,2014-2018年中国大部分地区的空气质量逐渐向好,年均空气质量属于污染水平的城市和站点逐年减少。2、时间序列趋势分析结果显示,在观测期内中国三大经济区中京津冀地区的空气污染最重,逐年改善幅度最大,长三角地区次之,珠三角地区则空气质量最优,改善幅度最小;以三大经济区作为预测对象进行空气质量未来预测,模型在测试集数据上的精度显示:SARIMA模型月度预测和RNN-LSTM模型日度预测的精度分别可以达到85.49%和99.6%,能够比较准确地预测出各地区未来的空气质量水平。3、气象因素影响力趋势分析显示,单个气象因素对空气质量的影响在不同地区存在明显差异,但每个地区气象因素整体对空气质量的影响力均呈现逐年增强的趋势。