超高维数据下特征筛选方法的研究与应用

来源 :南京信息工程大学 | 被引量 : 2次 | 上传用户:duoduo19851125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,在气象预测、模式识别、基因研究等一些领域中,常面临超高维数据。对于超高维数据,只有少量的协变量同响应变量之间是相互关联的,模型呈现稀疏性特征,由于维数过高,传统的稳健的统计分析方法和高维数据变量选择方法会变得不再适用。为了更好的对超高维数据进行分析,需要对它进行降维处理。近年来很多学者提出多种便捷的超高维变量筛选方法,一种有效合理的方法是将其分为两步,首先使用一种快捷高效的变量筛选过程将超高维数据降低到样本大小之下的合适规模,并能够保留所有重要变量,在此基础上再使用一些成熟的方法对降维后的高维数据进行变量选择。本文创新性的提出两种超高维特征筛选法,在出现异方差、重尾等复杂超高维数据时基于区间条件分位数提出了一种稳健的超高维特征筛选方法;当面临响应变量随机缺失的不完全超高维数据问题中,提出一种基于逆概率加权的边际相关度量特征筛选方法。本硕士论文的主体工作如下:第一章概述了超高维数据下变量筛选的研究历史与现状,以及对分位数和缺失数据进行了系统的回顾与学习。第二章提出一种稳健的区间条件分位数超高维特征筛选法,处理重尾、异常点这些复杂的超高维数据。目前大部分的条件分位数的研究都是基于一个单一的分位数水平下进行的,变量的筛选依赖于所提前设置的分位数,这使得分位数点的扰动可能导致变量筛选的不稳定性,本文引入全局分位数回归思想,让分位点取一个区间,提出一种基于区间的条件分位数筛选方法,使其筛选标准更加准确,并通过理论证明、模拟研究和实例说明改进后的方法更加稳定。第三章提出有关响应变量随机缺失的超高维的特征筛选法。在现有的研究工作中,特征筛选研究主要关注完全数据问题,然而,在市场研究调查、社会调查、医学研究领域中经常出现响应变量随机缺失(MAR)的情况,面对响应变量随机缺失的数据,基于逆概率加权的方法提出一种边际筛选过程。同样也通过理论证明、数值模拟和实例证明验证了其有效性。第四章对本文提出的两种特征筛选方法进行了总结,并提出了还可以更加深入地去研究的方向。
其他文献
期刊
在自然界和社会接触网中许多复杂系统都可以用复杂网络模型来刻画,例如利用复杂网络对传染性疾病传播动力学的研究已经取得了很大进展.但在动态的异质网络上研究传染病仍是复
本文利用变分法研究带(q,p)-Laplace算子的非自治Hamilton系统的次调和解.全文共由三部分组成:  第一章概述了问题的研究现状及本文的主要工作.  第二章介绍了本文所需要
随着科学技术的迅速发展,多梁结构已广泛存在于工程实际当中.因此,在实际的应用中,我们经常会看到将两个相同的梁通过一层薄而轻的粘合层相互粘合在一起的结构,这样的结构就被称
本文研究了极大类p群的几个问题.由五章组成.第一章是本文的引言。第二章是预备知识.第三章分类了极大子群均特征的极大类3群并且求出了有交换极大子群的极大类p群的极大子群
近四十年,矩阵的保持问题是矩阵论中一个特别活跃的领域,因为它有很好的理论价值和实际意义,它在微分方程、系统控制、数理统计等领域有着广泛的实际应用背景.在保持问题中,保秩1
工件的制造误差分析是工件制造工艺评价的一个重要环节,各种数字化测量设备为产品的误差分析提供了条件,并成为制造精度评价的主要手段。工业CT技术是一种先进的无损检测技术,本
盲信号分离(BSS)是指在源信号和传输通道的参数未知的情况下,仅根据观察信号来恢复出无法直接观测的各个原始信号的过程。盲信号分离(BSS)在语音识别、图像处理、医学信号分
对不可压Navier-Stokes(N-S)方程组的数值计算一直是计算流体力学的研究热点之一,在科研人员的不懈努力下,已经发展出许多求解N-S方程组的高效、稳定的数值方法,基于高精度紧致
邓小平在1985年一次讲话中谈到,其实改革在1975年就开始了,只不过那时叫整顿。乍听起来,这个判断似乎令人费解。1975年,不正是“文化大革命”的第九个年头吗?在那个极左思潮泛滥的动乱年代,竟会有中国未来改革的幼芽在萌动?