论文部分内容阅读
随着我国经济的发展,我国已经成为全球PM2.5污染最严重的地区之一。分析地区的PM2.5浓度时空变化和PM2.5浓度与气象因子的关系对治理PM2.5污染具有重要意义。同时对以往PM2.5数据的缺失值或者异常值进行预测补充和对未来PM2.5浓度进行预测也是治理PM2.5污染很重要的一步,对以往缺失或者异常值进行预测可以构建长时间高精度的PM2.5浓度数据集,而预测未来的PM2.5浓度则能为政府和民众提供PM2.5污染预警。本研究采用江西省2016-2018年小时级的历史气象数据和历史空气质量数据,分析了江西省PM2.5浓度的时空变化趋势以及PM2.5浓度与气象要素之间的联系并构建了基于机器学习的PM2.5浓度预测模型,旨在为江西省的空气污染管理和基础研究提供科学依据。论文主要开展的工作和取得的研究结果如下:首先,本研究选用了江西17个气象站,57个空气质量站的数据。数据覆盖了江西省11个设区市,经过时空匹配和质量控制后,获得2个基于气象因子预测PM2.5浓度数据集和6个基于历史数据预测未来PM2.5浓度数据集。随后对江西省2016-2018年的PM2.5浓度数据进行时空趋势分析,结果表明:江西省近三年的PM2.5浓度呈现先上升后下降的趋势,2016年全省PM2.5浓度为44.38μg/m3,2017年为45.99μg/m3,2018年为36.7μg/m3。江西西北地区的PM2.5污染较严重,而东部地区的PM2.5污染处于较低水平。景德镇市是近些年江西省PM2.5污染最低的城市,在2018年总体空气质量达到了二级标准。对江西省PM2.5浓度与各气象要素进行关联研究,结果表明:平均气温和PM2.5的变化趋势相反。平均气压和PM2.5的变化趋势相同。相对湿度和PM2.5浓度没有明显的趋势关系。地表温度的变化和PM2.5浓度的变化之间趋势关联不明显,但是两者有相同的极点趋势。风速变化和PM2.5浓度变化的趋势表现为:当风速呈现低速状态时,PM2.5浓度处于高值状态,而风速则处于高速状态时,则PM2.5浓度处于低值状态。最后,使用预处理后的数据构建了RF、XGBoost、LightGBM三个预测模型,采用Stacking技术将RF,XGBoost,LightGBM模型进行融合获得Stacking融合模型,并开展预测对比实验。实验结果表明:(1)对于采用基于气象因子预测PM2.5浓度小时数据集,4个模型的R2均大于0.85,RF模型和Stacking融合模型预测精度较高。而日数据集则表现不佳,4个模型的预测精度均低于0.8。总体而言,Stacking融合模型比其他模型预测结果好。(2)对于采用历史数据预测未来PM2.5浓度数据集,各模型的预测精度随着待预测的时间延后呈现逐步降低的现象,在小时数据集中,1小时、6小时和24小时数据的R2均大于0.8,其中1小时PM2.5预测R2最高达0.97。而日数据集的R2则处于0.63-0.78之间,这或与日数据集数据少而且缺失数据之间的时间联系有关。就预测精度而言,Stacking融合模型与其他模型相比存在一些优势。(3)对4个模型的构建时间和占用内存大小进行性能分析。以基于气象因子预测PM2.5浓度的小时和日数据集为例,在单个模型的构建时间:RF>>XGBoost>=LightGBM,模型内存:RF>>LightGBM>XGBoost。总体而言:单模型中,XGBoost模型在预测能力、构建时间和模型占用内存上有一定优势。而Stacking融合模型的预测能力比单模型有一些优势,但模型的构建效率与模型大小方面不如XGBoost模型。