超高维自由模型下的特征筛选研究及应用

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:fisher9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集技术的日趋发达和广泛应用,研究者在许多领域能以较低成本获取超高维数据,例如在环境科学、医学和金融学等等.由于“维数灾难”带来计算成本、估计精度和模型可解释性上的挑战,特征筛选成为相关领域的研究热点问题.近年来,大量超高维模型对应的筛选方法被提出和研究,还有许多无模型约束的独立特征筛选方法被提出,并得到了广泛应用.但是,目前仍没有一种特征筛选方法可以处理协变量中同时存在类别变量和连续变量的超高维数据.针对这种普遍存在的数据,本文尝试提出一种一致性的独立特征筛选指标,并从理论和实验中证明其有效性.空气质量预报是环境科学领域的研究热点,但是空气质量数据往往也存在预测变量维数过高的问题.直接利用所有变量进行预测往往会导致预测精度下降和模型解释性降低,故本文尝试将特征筛选方法应用到大气污染物浓度预报中,提高模型性能.本文的具体工作如下:(1)针对协变量中同时存在类别变量和连续变量的超高维数据,本文基于条件分布函数和无条件分布函数之间的差异建立了一个一致性特征筛选(UFS)指标.特别地,当响应变量和协变量都是连续型变量时,本文使用核估计对条件分布函数进行估计.基于一些假设,本文证明了一致性特征筛选指标满足准确筛选性质.此外,一致性筛选指标还具有以下优点:一,该特征筛选方法是模型自由的,即不需要任何的参数模型假设.二,一致性筛选指标是由条件分布函数和无条件分布函数构造而成,故它对协变量服从重尾分布,含离群点的数据具有稳健性.三、UFS对刻画非线性相关性具有优越性.蒙特卡罗模拟和真实数据分析的结果验证了一致性筛选指标具有很好的有限样本性质.(2)本文在进行污染物浓度预报时考虑到气象数据是相依数据,故增加选取前期污染物和气象要素作为预报因子以提高预测精度和模型解释性,但是数据的维数也随之大幅增加.本文引入特征筛选的思想,使用距离相关系数来衡量响应变量和预报因子之间的相关性,选择较大距离相关系数对应的预报因子进入模型,并采用支持向量机回归对污染物浓度进行预报.最终,本文建立了距离相关系数特征筛选与支持向量机回归相结合的统计预报模型DC-SVR,并且先后对淮安市PM2.5浓度日均值、杭州和南京PM2.5小时浓度进行预报,结果显示DC-SVR模型具有较好的预报性能及合理的模型解释性.最后,本文尝试建立长三角主要城市未来72h空气质量预报业务系统,为开展城市空气质量预报提供参考.
其他文献
目的分析专科化术前访视对围手术期患者访视质量的影响。方法 100例围手术期患者为研究对象,随机分为观察组和对照组,各50例。对照组运用常规术前访视,观察组在对照组常规术
上周上证指数单周大涨4.12%,成交量快速放大,以水泥为龙头的周期股成为反弹的主要动力。周期股的跌深反弹并不难,问题在于是否具有延续性?$$   因此,我们需要明白此轮周期股反
报纸
紧急避孕是指未防护的性交或避孕措施失败后几天内采用的一种紧急补救措施,其目的是预防非意原妊娠发生,以减少人工流产率.紧急避孕有利于保护妇女生殖健康,有利于计划生育工
<正>第八届全国变压器技术学术年会稿件的征集工作已经圆满结束,今年共收到征文稿件85篇,稿件数量超出上届近一倍。目前,稿件的初审和论文集的编排工作已经开始。2012年11月
本研究通过固定化黑曲霉生物转化制备得到发酵液,其中含有未完全反应的底物单宁酸、产物没食子酸、残留的培养基成分及菌体蛋白等。本研究根据发酵液的组成成分及其特性制定
随着时代的进步及科学技术的不断发展,血细胞计数方法已由原来传统的手工计数法逐渐被血细胞分析仪取代,广泛应用于临床实验室,我科应同时拥有三台不同型号的血细胞分析仪,为
自1990年至1996年,我们应用全肺切除术治疗肺部疾患28例,占同期肺部手术16.2%.现就治疗体会报告如下.1.临床资料1&#183;1一般资料本组28例中男22例,女6例.年龄31-68岁,平均年
刑事案件侦查本质上是对刑事个案的一种认识活动,它包括形成关于刑事个案案情事实的侦查假说的认识活动和检验关于刑事个案案情事实的侦查假说的认识活动。刑事个案侦查思维