论文部分内容阅读
随着现代科学技术的高速发展,各领域呈现出各种复杂数据,比如缺失数据、删失数据、截断数据、高维数据.高维数据的出现不仅带来了大量的有效信息,也为统计学的发展带来了新的机遇.当协变量的维数p固定,且样本量n较大时,传统的统计方法表现的非常好.然而在高维数据下,经典的统计推断理论可能失效.因此,在高维数据下,如何做统计推断一直是学者们关注的热点.本文主要研究了高维回归模型系数的检验问题.图或网络是描述信息的常用方式,特别是在生物学中,许多不同的生物过程可用图来表示,如新陈代谢途径.结合生物网络或图信息,第二章研究了高维下线性模型单个回归系数的统计推断.首先,基于L1惩罚函数和拉普拉斯(Laplacian)矩阵构造出单个回归系数的无偏估计,并得到其渐近分布.其次,与现有的方法相比,数值模拟结果表明本章所提出的方法优于其它方法.最后,将本章所提出的纠偏方法应用到人类肝脏队列数据集中,与其它方法相比,本章提出的方法能够高效的识别出有效的基因.线性模型虽然简单,但在实际中,数据之间往往存在非线性关系.为同时刻画线性和非线性关系,学者们提出了部分线性模型.当线性部分的协变量维数p发散时,第三章研究了高维部分线性模型中参数部分的全局系数检验问题.首先,在原假设下,本章利用多项式样条估计未知函数.其次,基于原假设下得分的期望为零,我们构造了 U-type检验统计量,并得到了该统计量在原假设和局部备择假设下的渐近分布.数值模拟表明,在不同的设置下,本章所提出的检验统计量都表现的非常好.另外,即使在错误模型下,该检验统计量也能区分原假设和备择假设.最后,将本章所提出的方法应用到乳腺癌数据中,结果表明本章提出的检验统计量能够更有效的识别有用的变量.前面两章都是假设误差是独立同分布的,然而实际数据中,特别是金融数据,往往存在异方差.为此第四章,针对高维Expectile线性回归模型,研究了回归系数的全局检验和局部检验问题.在原假设下,类似于第三章的构造方法,我们构造了 U-type检验统计量.理论上,在一定的条件下,基于鞅的中心极限定理,在原假设和局部备择假设下,我们得到了本章所提出的检验统计量的极限分布.数值模拟表明本章所提出的检验统计量能够有效的区分原假设和备择假设,特别是在非稀疏的情况下.最后,将本章所提出的方法应用于股票收益数据中,结果表明高维线性模型难以刻画协变量与响应变量之间的关系.