论文部分内容阅读
摘 要:针对不同大雾情况下的能见度,建立估计与预测模型。通过建立多分类的多元回归模型,研究能见度与地面气象影响因素之间的关系,并对大雾的能见度进行预测。利用2020年研究生数学建模竞赛E题所提供的数据,用主成分分析进行降维,分析每个变量对能见度的影响规律,建立多分类多元回归模型。模型结果表明,风速对能见度的影响程度最大,呈正相关关系;气压越高,能见度越低;温度越高,能见度越大;湿度对能见度的影响程度最小,呈负相关关系。预测结果表明,八点过后能见度逐渐增大。
关键词:能见度;气象因素;主成分分析;回归模型;预测
中图分类号:O212 文献标识码:A 文章编号:1673-260X(2021)01-0009-04
引言
在日常出行中,公路,飞机等都需在意天气问题,尤其是雾霾情况下。而大雾和霾直接影响着能见度这一指标。在能见度很低时,高速公路以及航空公司均会采取封路取消航班等措施。因此,能见度的预测是高速公路和航空公司十分关注的问题。
本文所用资料为2020年“华为杯”研究生数学建模E题所给资料及數据。根据竞赛提供的数据建立模型,探究能见度与地面气象因素的内在关系,并进行预测。
1 模型的建立与求解
1.1 数据处理
原数据给出5755个数值,时间跨度为从北京时间的2020-3-12 8:00到2020-3-13 7:59,每一分钟给出4个数值。将数据进行整合,经过基本的数据筛选,选用每分钟的4个数值的平均值x1,x2,…,x2929个变量作为研究对象,每个指标的数据都从5755个值缩减到1437个值[1]。
原始数据给出29个变量,但其中有很多变量反映的是同一个信息,为进一步判断这些变量之间是否存在线性相关,对这些变量进行多重共线性检验。
共线性可以通过共线统计的方差膨胀因子VIF值来判断,若该值大于5时,则认为自变量可能存在多重共线性的问题。通过SPSS中对上述29个指标变量计算方差膨胀因子如表1所示。
上表显示超过95%的变量的方差膨胀因子VIF的值大于5,说明各个变量指标之间存在着多重共线性,因此不可以直接对上述29个变量进行建模,需要对变量进行进一步降维处理。
采用主成分分析的方法进行降维来处理高维数据,通过正交变化的方式将高维数据尽可能少的投影到低维空间,从而达到简化数据结构的目的[2]。解释总方差结果如表2。
由上表可知,相关系数矩阵的特征根分别为:1=14.006,2=6.401,3=2.083,4=1.485,5=0.915,6=0.561等等,我们发现只有前4个主成分的特征值是大于1,且其方差占所有主成分方差的85.63%,即包含了原始变量的85.63%的信息。一般情况下,主成分累计贡献率达到80%即可满足。该结果可以直接通过碎石图看出,如下图所示。
上图显示在第四个因子之后逐渐趋于平缓,在之后的回归建模时可以取前4个主成分。
根据4个主成分对原指标变量的提取程度,将其4个成分分别命名为风速、气压、温度、湿度,用y1,y2,y3,y4表示。
1.2 模型形式设定
给出的影响因素中,有一个因素是风向,该指标的单位为度,取值在0-360之间,由于风向不具有可加性,不能将其加入模型,再考虑风向因素对能见度的季节性影响尤为重要,因此需要对该变量进行处理。进行数据挖掘将风向分为四类,从而构造3个0-1虚拟变量。将0-90之间的数值取为第1类,为东北方向;将90-180之间的数值取为第2类,为西北方向;将180-270之间的数值取为第3类,为西南方向;将270-360之间的数值取为第4类,为东南方向[3]。
D1=1,东北方向0,非东北方向,D2=1,西北方向0,非西北方向,
D3=1,西南方向0,非西南方向。
根据主成分分析结果,用y1,y2,y3,y4这4个主要变量作为自变量、风向作为虚拟变量建模,为之后根据不同地域的风向预测大雾消散情况做一个理论基础。模型如下:
Z=f(y1,y2,y3,y4,D1,D2,D3)
其中:Z为能见度;y1,y2,y3,y4分别为风速、气压、温度、湿度;Di,i=1,2,3为方向。
现根据上述得到的风速、气压、温度、湿度4个变量指标,分别做出各个变量关于能见度Z的趋势图,初步探究之间的关系。如下所示:
由图2可知,风速与能见度呈正相关关系。虽有一个特殊峰值,但是大致呈线性关系。
由图3可知,气压与能见度呈负相关关系,大致呈线性关系。
由图4可知,温度与能见度呈正相关关系。能见度随温度的升高而增大,前期增大幅度渐渐变小,呈现对数关系;后期增大的幅度渐渐变大,呈现二次关系;图像整体呈线性关系。因此将温度变量纳入模型时,分别考虑其对数形式、一次形式和二次形式。
由图5可知,湿度与能见度呈负相关关系。随湿度增大,能见度逐渐变小;一开始能见度变小的幅度很大,渐渐幅度减小。考虑将该变量的负一次形式纳入模型[4]。
基于温度变量随能见度的变化趋势图,认为温度变量与能见度的关系可能是对数关系、一次关系和二次关系,因此分别将温度变量的对数形式、一次形式和二次形式纳入模型。基于湿度变量随能见度的变化趋势图,认为湿度变量与能见度的关系可能是一次关系和负一次关系,因此分别将湿度变量的一次形式和负一次形式纳入模型。考虑到不同变量纳入模型的不同形式,分别建立5种模型,最终根据拟合程度选出一个最优模型。
建立以下五种模型,依次记为a~e:
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (a) Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (b)
Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (c)
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4+?茁1D1+?茁2D2+?茁3D3 (d)
Z=c+?琢1y1+?琢2y2+?琢3y32+?琢4+?茁1D1+?茁2D2+?茁3D3 (e)
其中:Z为能见度;y1,y2,y3,y4分别为风速、气压、温度、湿度;Di,i=1,2,3为方向。
1.3 参数估计
该参数的p值都小于0.05,均通过显著性检验。
1.4 模型检验
1.4.1 统计检验
从上表可以看出,五种模型的F统计量的p值均为0,则说明这些方程在统计上均是显著的。其次,通过拟合度R2、标准误差、以及F统计量显示,d模型的各項数据均优于其余4个模型,因此在这里选用模型d,模型方程为:
Z=f(y1,y2,y3,y4)=940394+1075.74y1-929.2969y2
+658.8416y3+1822.342+600.2985D1
-81.08468D2+430.219D3
四个方向的平均能见度为:
东北方向:
E(Z|D1=1,D2=0,D3=0)=940399.43+1075.744y1
-929.2969y2+658.8416y3+1822.342
西北方向:
E(Z|D1=0,D2=1,D3=0)=940313+1075.744y1
-929.2969y2+658.8416y3+1822.342
西南方向:
E(Z|D1=1,D2=0,D3=1)=940824.2+1075.744y1
-929.2969y2+658.8416y3+1822.342
东南方向:
E(Z|D1=0,D2=0,D3=0)=940394+1075.744y1
-929.2969y2+658.8416y3+1822.342
1.4.2 预测检验
从建模样本外的测试样本中的原数据中随机取出10个数值,对比模型拟合预测出的浓度值与实际值[5],如表5所示。
上表可以看出,几乎所有的预测值与真实值之间的相对误差都小于1%,大部分的相对误差在0.1%附近,模型拟合较好。
1.5 结果分析
上述建立的模型可知,风速对能见度的影响程度最大。风速越大,能见度越高,风速变化1个单位,能见度变化1075.7个单位;气压与能进度呈负相关关系,气压越高,能见度越低,气压上升1个单位,能见度降低929.3个单位;温度越高,能见度越大,温度升高1个单位,能见度增大658.8个单位;湿度对能见度的影响程度最小,湿度越大,能见度越低[6]。
2 外推预测
用该模型对之后的大雾情形下的能见度进行预测,预测结果如表6。
预测趋势整体平缓,有上升趋势。预测结果图如图6,红色线段为原数据的图像,蓝色线段为预测部分图像,虚线为趋势线。图中可以看出,能见度变化不大,略微有变大趋势。
3 结语
(1)在8:00到14:30,能见度逐渐增大并达到峰值;14:30之后的时间段,能见度逐步降低。在16:14时间点附近,能见度出现急速下降。
(2)能见度与风速、温度成正相关关系,与风速、气压呈负相关关系,与方向因素关系不大。
(3)风速越大,能见度越高,风速变化1个单位,能见度变化1075.7个单位;气压越高,能见度越低,气压上升1个单位,能见度降低929.3个单位;温度越高,能见度越大,温度升高1个单位,能见度增大658.8个单位;湿度越大,能见度越低。
本文考虑到了5种不同的模型形式,估计了未来10个预测值,在之后的研究中,会深入挖掘各影响因素对能见度的影响程度与趋势,建立更适合的模型并进行长期预测。
——————————
参考文献:
〔1〕周建平,张蕾,王传辉,姚叶青,刘承晓.大雾临近预报中高密度能见度数据应用[J].气象科技,2019,47(05):866-871.
〔2〕陈玉蓉.四川盆地低能见度天气的变化分析及其对机场运行的影响[D].中国民航大学,2019.
〔3〕白小云.咸阳机场大雾低能见度资料的分析与应用[A].中国气象学会.第34届中国气象学会年会S16智能气象观测论文集[C].中国气象学会:中国气象学会,2017:10.
〔4〕程航.大连地区大雾气候特征及成因研究[D].兰州大学,2014.
〔5〕刘炳杰.环渤海低能见度分析及短期预报方法研究[D].兰州大学,2010.
〔6〕白小云.咸阳机场大雾天气能见度的观测[J].陕西气象,2005,63(04):42-43.
关键词:能见度;气象因素;主成分分析;回归模型;预测
中图分类号:O212 文献标识码:A 文章编号:1673-260X(2021)01-0009-04
引言
在日常出行中,公路,飞机等都需在意天气问题,尤其是雾霾情况下。而大雾和霾直接影响着能见度这一指标。在能见度很低时,高速公路以及航空公司均会采取封路取消航班等措施。因此,能见度的预测是高速公路和航空公司十分关注的问题。
本文所用资料为2020年“华为杯”研究生数学建模E题所给资料及數据。根据竞赛提供的数据建立模型,探究能见度与地面气象因素的内在关系,并进行预测。
1 模型的建立与求解
1.1 数据处理
原数据给出5755个数值,时间跨度为从北京时间的2020-3-12 8:00到2020-3-13 7:59,每一分钟给出4个数值。将数据进行整合,经过基本的数据筛选,选用每分钟的4个数值的平均值x1,x2,…,x2929个变量作为研究对象,每个指标的数据都从5755个值缩减到1437个值[1]。
原始数据给出29个变量,但其中有很多变量反映的是同一个信息,为进一步判断这些变量之间是否存在线性相关,对这些变量进行多重共线性检验。
共线性可以通过共线统计的方差膨胀因子VIF值来判断,若该值大于5时,则认为自变量可能存在多重共线性的问题。通过SPSS中对上述29个指标变量计算方差膨胀因子如表1所示。
上表显示超过95%的变量的方差膨胀因子VIF的值大于5,说明各个变量指标之间存在着多重共线性,因此不可以直接对上述29个变量进行建模,需要对变量进行进一步降维处理。
采用主成分分析的方法进行降维来处理高维数据,通过正交变化的方式将高维数据尽可能少的投影到低维空间,从而达到简化数据结构的目的[2]。解释总方差结果如表2。
由上表可知,相关系数矩阵的特征根分别为:1=14.006,2=6.401,3=2.083,4=1.485,5=0.915,6=0.561等等,我们发现只有前4个主成分的特征值是大于1,且其方差占所有主成分方差的85.63%,即包含了原始变量的85.63%的信息。一般情况下,主成分累计贡献率达到80%即可满足。该结果可以直接通过碎石图看出,如下图所示。
上图显示在第四个因子之后逐渐趋于平缓,在之后的回归建模时可以取前4个主成分。
根据4个主成分对原指标变量的提取程度,将其4个成分分别命名为风速、气压、温度、湿度,用y1,y2,y3,y4表示。
1.2 模型形式设定
给出的影响因素中,有一个因素是风向,该指标的单位为度,取值在0-360之间,由于风向不具有可加性,不能将其加入模型,再考虑风向因素对能见度的季节性影响尤为重要,因此需要对该变量进行处理。进行数据挖掘将风向分为四类,从而构造3个0-1虚拟变量。将0-90之间的数值取为第1类,为东北方向;将90-180之间的数值取为第2类,为西北方向;将180-270之间的数值取为第3类,为西南方向;将270-360之间的数值取为第4类,为东南方向[3]。
D1=1,东北方向0,非东北方向,D2=1,西北方向0,非西北方向,
D3=1,西南方向0,非西南方向。
根据主成分分析结果,用y1,y2,y3,y4这4个主要变量作为自变量、风向作为虚拟变量建模,为之后根据不同地域的风向预测大雾消散情况做一个理论基础。模型如下:
Z=f(y1,y2,y3,y4,D1,D2,D3)
其中:Z为能见度;y1,y2,y3,y4分别为风速、气压、温度、湿度;Di,i=1,2,3为方向。
现根据上述得到的风速、气压、温度、湿度4个变量指标,分别做出各个变量关于能见度Z的趋势图,初步探究之间的关系。如下所示:
由图2可知,风速与能见度呈正相关关系。虽有一个特殊峰值,但是大致呈线性关系。
由图3可知,气压与能见度呈负相关关系,大致呈线性关系。
由图4可知,温度与能见度呈正相关关系。能见度随温度的升高而增大,前期增大幅度渐渐变小,呈现对数关系;后期增大的幅度渐渐变大,呈现二次关系;图像整体呈线性关系。因此将温度变量纳入模型时,分别考虑其对数形式、一次形式和二次形式。
由图5可知,湿度与能见度呈负相关关系。随湿度增大,能见度逐渐变小;一开始能见度变小的幅度很大,渐渐幅度减小。考虑将该变量的负一次形式纳入模型[4]。
基于温度变量随能见度的变化趋势图,认为温度变量与能见度的关系可能是对数关系、一次关系和二次关系,因此分别将温度变量的对数形式、一次形式和二次形式纳入模型。基于湿度变量随能见度的变化趋势图,认为湿度变量与能见度的关系可能是一次关系和负一次关系,因此分别将湿度变量的一次形式和负一次形式纳入模型。考虑到不同变量纳入模型的不同形式,分别建立5种模型,最终根据拟合程度选出一个最优模型。
建立以下五种模型,依次记为a~e:
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (a) Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (b)
Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (c)
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4+?茁1D1+?茁2D2+?茁3D3 (d)
Z=c+?琢1y1+?琢2y2+?琢3y32+?琢4+?茁1D1+?茁2D2+?茁3D3 (e)
其中:Z为能见度;y1,y2,y3,y4分别为风速、气压、温度、湿度;Di,i=1,2,3为方向。
1.3 参数估计
该参数的p值都小于0.05,均通过显著性检验。
1.4 模型检验
1.4.1 统计检验
从上表可以看出,五种模型的F统计量的p值均为0,则说明这些方程在统计上均是显著的。其次,通过拟合度R2、标准误差、以及F统计量显示,d模型的各項数据均优于其余4个模型,因此在这里选用模型d,模型方程为:
Z=f(y1,y2,y3,y4)=940394+1075.74y1-929.2969y2
+658.8416y3+1822.342+600.2985D1
-81.08468D2+430.219D3
四个方向的平均能见度为:
东北方向:
E(Z|D1=1,D2=0,D3=0)=940399.43+1075.744y1
-929.2969y2+658.8416y3+1822.342
西北方向:
E(Z|D1=0,D2=1,D3=0)=940313+1075.744y1
-929.2969y2+658.8416y3+1822.342
西南方向:
E(Z|D1=1,D2=0,D3=1)=940824.2+1075.744y1
-929.2969y2+658.8416y3+1822.342
东南方向:
E(Z|D1=0,D2=0,D3=0)=940394+1075.744y1
-929.2969y2+658.8416y3+1822.342
1.4.2 预测检验
从建模样本外的测试样本中的原数据中随机取出10个数值,对比模型拟合预测出的浓度值与实际值[5],如表5所示。
上表可以看出,几乎所有的预测值与真实值之间的相对误差都小于1%,大部分的相对误差在0.1%附近,模型拟合较好。
1.5 结果分析
上述建立的模型可知,风速对能见度的影响程度最大。风速越大,能见度越高,风速变化1个单位,能见度变化1075.7个单位;气压与能进度呈负相关关系,气压越高,能见度越低,气压上升1个单位,能见度降低929.3个单位;温度越高,能见度越大,温度升高1个单位,能见度增大658.8个单位;湿度对能见度的影响程度最小,湿度越大,能见度越低[6]。
2 外推预测
用该模型对之后的大雾情形下的能见度进行预测,预测结果如表6。
预测趋势整体平缓,有上升趋势。预测结果图如图6,红色线段为原数据的图像,蓝色线段为预测部分图像,虚线为趋势线。图中可以看出,能见度变化不大,略微有变大趋势。
3 结语
(1)在8:00到14:30,能见度逐渐增大并达到峰值;14:30之后的时间段,能见度逐步降低。在16:14时间点附近,能见度出现急速下降。
(2)能见度与风速、温度成正相关关系,与风速、气压呈负相关关系,与方向因素关系不大。
(3)风速越大,能见度越高,风速变化1个单位,能见度变化1075.7个单位;气压越高,能见度越低,气压上升1个单位,能见度降低929.3个单位;温度越高,能见度越大,温度升高1个单位,能见度增大658.8个单位;湿度越大,能见度越低。
本文考虑到了5种不同的模型形式,估计了未来10个预测值,在之后的研究中,会深入挖掘各影响因素对能见度的影响程度与趋势,建立更适合的模型并进行长期预测。
——————————
参考文献:
〔1〕周建平,张蕾,王传辉,姚叶青,刘承晓.大雾临近预报中高密度能见度数据应用[J].气象科技,2019,47(05):866-871.
〔2〕陈玉蓉.四川盆地低能见度天气的变化分析及其对机场运行的影响[D].中国民航大学,2019.
〔3〕白小云.咸阳机场大雾低能见度资料的分析与应用[A].中国气象学会.第34届中国气象学会年会S16智能气象观测论文集[C].中国气象学会:中国气象学会,2017:10.
〔4〕程航.大连地区大雾气候特征及成因研究[D].兰州大学,2014.
〔5〕刘炳杰.环渤海低能见度分析及短期预报方法研究[D].兰州大学,2010.
〔6〕白小云.咸阳机场大雾天气能见度的观测[J].陕西气象,2005,63(04):42-43.