论文部分内容阅读
随着生活水平的提高,人们越来越关注能够影响自身以及下一代健康的环境污染问题,其中空气污染最贴近人们的生活。在各种空气污染物中,PM2.5作为近几年最受关注的污染物,人们围绕它做了很多的研究。但是,由于其成因复杂,尤其是在城市中,各种条件综合作用的情况下,准确预测PM2.5浓度的难度比较大。现有研究中主要存在如下三个问题:第一,传统数值预测方法存在瓶颈,相对于统计预测方法来说,预测的准确率较低;第二,现有的统计预测方法在特征选取方面往往过于单一,考虑的要素过少,得到的预测模型能够应用的场景限制过多,且不能在空间维度进行预测;第三,现有研究都没有考虑监测站点的规划问题,目前关于监测站点位置的选择具有很强的人为主观性,导致空气质量监测站点的分布不够合理。针对以上问题,本文进行了如下研究:首先,使用统计预测方法,使用改进的提升树模型——XGBoost模型,在时间维度进行建模,并且将空气质量数据与气象条件数据结合到一起,利用特征重要性筛选特征。另外,通过错位添加标签的方法扩充了数据,数据集扩充为原规模的十倍以上,使得到的预测模型更加准确。并通过实验验证了模型准确率。其次,使用空间插值的思想在空间维度对PM2.5浓度进行建模,通过经纬度坐标变换提取数据在空间维度上的信息,将空间维度信息的重要性设置为必须的属性,保证建模过程严格基于站点空间坐标信息。并将空间维度上的预测模型与时间维度上的预测模型相结合,构建出了PM2.5浓度时空预测模型,在已知当前空气质量信息与气象条件信息的情况下能够预测24小时内所有监测点经纬度上下界构成的矩形区域内任意经纬度的PM2.5浓度。最后,利用上述研究的结论,本文构建了区域网格化PM2.5浓度数据,利用这些数据对空气质量监测站点的规划进行了研究。首先,提出了一种站点分布评价标准,即区域绝对偏差控制率;然后,基于K-means聚类算法提出了一种通过二次聚类得到的固定站点位置的规划方法,并针对此方法的缺点进一步提出了一种动态站点规划方法。最后通过实验对比了两种方法得到的站点与真实站点之间的优劣。