论文部分内容阅读
随着数据收集技术的日趋发达和广泛应用,研究者在许多领域能以较低成本获取超高维数据,例如在环境科学、医学和金融学等等.由于“维数灾难”带来计算成本、估计精度和模型可解释性上的挑战,特征筛选成为相关领域的研究热点问题.近年来,大量超高维模型对应的筛选方法被提出和研究,还有许多无模型约束的独立特征筛选方法被提出,并得到了广泛应用.但是,目前仍没有一种特征筛选方法可以处理协变量中同时存在类别变量和连续变量的超高维数据.针对这种普遍存在的数据,本文尝试提出一种一致性的独立特征筛选指标,并从理论和实验中证明其有效性.空气质量预报是环境科学领域的研究热点,但是空气质量数据往往也存在预测变量维数过高的问题.直接利用所有变量进行预测往往会导致预测精度下降和模型解释性降低,故本文尝试将特征筛选方法应用到大气污染物浓度预报中,提高模型性能.本文的具体工作如下:(1)针对协变量中同时存在类别变量和连续变量的超高维数据,本文基于条件分布函数和无条件分布函数之间的差异建立了一个一致性特征筛选(UFS)指标.特别地,当响应变量和协变量都是连续型变量时,本文使用核估计对条件分布函数进行估计.基于一些假设,本文证明了一致性特征筛选指标满足准确筛选性质.此外,一致性筛选指标还具有以下优点:一,该特征筛选方法是模型自由的,即不需要任何的参数模型假设.二,一致性筛选指标是由条件分布函数和无条件分布函数构造而成,故它对协变量服从重尾分布,含离群点的数据具有稳健性.三、UFS对刻画非线性相关性具有优越性.蒙特卡罗模拟和真实数据分析的结果验证了一致性筛选指标具有很好的有限样本性质.(2)本文在进行污染物浓度预报时考虑到气象数据是相依数据,故增加选取前期污染物和气象要素作为预报因子以提高预测精度和模型解释性,但是数据的维数也随之大幅增加.本文引入特征筛选的思想,使用距离相关系数来衡量响应变量和预报因子之间的相关性,选择较大距离相关系数对应的预报因子进入模型,并采用支持向量机回归对污染物浓度进行预报.最终,本文建立了距离相关系数特征筛选与支持向量机回归相结合的统计预报模型DC-SVR,并且先后对淮安市PM2.5浓度日均值、杭州和南京PM2.5小时浓度进行预报,结果显示DC-SVR模型具有较好的预报性能及合理的模型解释性.最后,本文尝试建立长三角主要城市未来72h空气质量预报业务系统,为开展城市空气质量预报提供参考.