论文部分内容阅读
空气污染物浓度与居民健康息息相关,是现代精细化空气质量预报业务的关键环节。空气污染会直接或间接地影响人们的生产生活与身体健康,特别是对于一些呼吸系统疾病的影响最为显著。在经济快速发展以及居民追求更高幸福指数的背景下,不断提高城市空气污染物浓度预报的精度一直是人们追求的目标。本文以我国西北地区省会城市为目标区域,利用空气质量资料与气象资料构建了多种预报模型,通过与实际观测对比分析,最终构建了多元逐步回归与随机森林的组合预报模型(multiple stepwise regression-random forest,MSR-RF),提高了空气污染物浓度的预报精度,拟合度指数(index of agreement,IA)均值达到了0.86。首先对西北5个省会城市空气污染物的时空分布特征进行了分析;然后基于多元逐步回归(multiple stepwise regression,MSR)构建了5个城市的空气污染物浓度预报方程,并且与滑动平均法进行对比;接下来采用Spearman相关系数法与随机森林重要性评估法对预报因子的重要性进行计算,筛选出对预测变量影响较大的因子作为构建机器学习预报模型的输入变量,以此来构建基于随机森林(random forest,RF)和基于支持向量机(support vector machines,SVM)的空气污染物浓度预报模型,并比较不同因子筛选方案对预报结果产生的影响以及不同预报模型的预报效果;最后通过构建MSR-RF组合预报模型提高了模型的泛化性能,并将该模型与中尺度天气预报数值模式(numerical model for mesoscale weather forecasting,WRF)相结合进行个例分析。主要研究结果如下:(1)PM2.5、PM10与O3仍是西北城市空气污染防治的重要对象。西北5个省会城市中,西安的空气质量状况相对最差,西宁和银川较优;2015-2020年期间,O3浓度呈逐年上升趋势,其它污染物浓度则有下降趋势;O3浓度值在夏季达到最高,冬季最低,其它污染物则恰恰相反;利用RF重要性评估法对西北5个城市的空气质量进行综合评价发现,采暖期内,颗粒物(包括PM2.5与PM10)是对空气质量影响权重值最大的污染物类型,是造成西北各城市空气污染的主要污染源;非采暖期内,权重值最大的是O3,其次是颗粒物。因此,开展空气污染预报工作可为各城市在不同时期有针对性地进行污染物防治提供重要参考。(2)对比分析了RF重要性评估法和Spearman相关系数法对预报因子的筛选,发现RF重要性评估法更适合用于筛选预报因子。在RF预报模型中,RF重要性评估法筛选得到的预报因子,其预报结果的IA比Spearman相关系数法平均提升了3.0%;在SVM预报模型中,RF重要性评估法的IA比Spearman相关系数法平均提升了2.4%。(3)RF、SVM与MSR这3种预报模型对空气污染物浓度的预报性能由高至低的顺序依次为:MSR>RF>SVM。比较RF模型与SVM模型时,在5个城市共计35个污染指标的预报模型中,RF的预报效果优于SVM的模型多达34个;在比较RF模型与MSR模型时,MSR的预报效果优于RF的有20个模型,RF的预报效果优于MSR的有15个模型,二者预报性能相差不大,MSR的表现略优于RF。(4)利用以上研究,构建了MSR-RF组合模型,提高了西北城市的空气污染物浓度预报精度,相比于单一预报模型,组合预报模型具有更强的鲁棒性与泛化能力,预报效果更好。针对各城市的空气污染物浓度构建MSR-RF组合预报模型,首先需利用MSR将污染物浓度预测出来,再利用RF模型对预测残差进行修正,通过训练RF模型得到残差序列的预测结果,最后将两部分预测结果加和得到最终的预测结果。MSR-RF组合模型预报结果的IA均值高达0.86,该模型预报结果的MAE和RMSE比MSR模型降低了9.5%与8.4%,IA提高了1.7%。将WRF模式与机器学习方法相结合进行个例分析,使得所构建的模型更具实用性,为西北地区更好地进行空气污染预防和疾病预防提供科学依据。