若干多元统计模型的适应性统计推断

来源 :山东大学 | 被引量 : 0次 | 上传用户：a11564877

【摘要】

：

回归分析是研究自然科学、工程技术以及社会经济发展规律的重要工具.回归模型是研究几个(随机)变量之间关系的一种重要的统计方法。一般地,回归模型包括参数回归模型、非参数

【作者】

：

宋允全

【出处】

：

山东大学

【发表日期】

：

2014年期

【关键词】

：

多元非参数回归局部线性估计局部可加估计局部线性-可加估计双非可加惩罚单指标变系数模型变量选择交互项特征筛选异方差检验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

回归分析是研究自然科学、工程技术以及社会经济发展规律的重要工具.回归模型是研究几个(随机)变量之间关系的一种重要的统计方法。一般地,回归模型包括参数回归模型、非参数回归模型和半参数回归模型等。近年来,非参数模型和半参数书模型受到越来越多统计学者的关注。众所周知,如果假设的参数模型结构不正确,将会导致错误的结论。为了减少模型的偏差,人们采用非参数的方法来估计模型内在的函数结构。非参数回归模型既不预先设定函数的结构形式,也不引入未知参数,函数在每一点的值都由所观测到的样本数据所观测到的样本数据所决定,因此非参数模型方法具有较大的适应性,在降低建模偏差方面就有较大优势。但非参数模型也存在明显的缺陷。首先,当维数比较大时,非参数估计会存在维数祸根问题。其次,非参数模型中很难加入离散的预测变量。第三,当预测变量的维数较高时,很难画出估计函数的图像并给出估计的合理解释。为了提高估计的效率,掌握数据背后的隐藏的模型结构信息就显得相当重要。但如何捕捉数据背后隐藏的结构信息仍然是一个具有挑战性的问题。在第二章中,我们提出了一个局部线性-可加估计和它的相关的版本来自动捕捉一般的多元非参数模型的可加信息。具体地说,我们考虑了如下非参数回归模型：其中Y是实数值响应变量,X=(X(1),…,X(p))T是p维协变量,模型误差ε满足E(ε|X)=0,Var(ε(?)X)=σ2。在全模型里,仅仅假设未知的回归函数是光滑的。众所周知,在全模型(0.2)中非参数回归函数r(x)的局部线性估计被定义为ru(x)=β(0)(x),其中β(0)(x)是下列最优化问题的解向量的第一个分量：而局部可加估计可以通过分别关于β(o)(u)和β(j)(u(j)),j=1,…,p,取最小化而得到：其中nx是在区域[-1,1]p中的数据Ui的个数,Y(Ui)是对应的相应变量。我们通过合并局部线性估计和局部可加估计来定义局部线性-可加估计。这个新的估计可以通过关于β(0)和β(j),j=1,…,p取最小化而得到。在(0.4)里,hj和hj(u)可以是相互不同的；前者是在局部线性估计中用到的全局窗宽,后者是在局部可加估计中用到的局部窗宽。这里β(j),j=1,…,p,是向量u的函数,这与(0.3)中的对应的量互不相同,因为每一个βx(j)(u(j))仅仅依赖于对应的分量u((j)。在(0.4)里,λ≥0和η(x)≥0分别是全局惩罚参数和局部惩罚参数。我们利用它们去惩罚局部线性估计的全局和局部非可加性。解上述优化问题,我们得到局部线性-可加估计的显示表达式：其中β(x)是β的一个局部线性估计,其中rad,x(u)是一个局部可加估计,W1(x；λ,η)和W2(x；λ,η)是对应的权函数。这样,新的估计是局部线性估计和局部可加估计的-个加权和。从而可知,我们的方法联系着两种类型的局部估计：局部线性(或者局部常数)估计和局部可加估计。这样新的估计能够获得在全模型和局部(可加)模型之间获得一个适应的拟合,而且能够应用于双可加性：局部可加性和全局可加性。另一方面,像局部线性估计一样,当模型没有可加结构时新的估计有显式表达式,这样使得其计算简单且相对精确。理论结果和数值模拟表明了新的方法有较低的计算复杂度且能大量地提高估计的精确度。同时我们引入一个新的理论框架来作为局部地和全局地相关的统计推断的理论基础。基于这个框架,新定义的估计可以看作为影响变量关于局部和全局相关的范数到全函数空间的投影。半参数模型由于其灵活性和可解释性得到了很好的研究和广泛的应用。在半参数模型中,单指标变系数模型是一类被广泛应用的模型。单指标变系数同时具有单指标模型和变系数模型的特征,因此它能够有效地避免非参数模型的维数灾难问题,又具有线性模型的可解释能力。基于这些优点,关于这个模型的参数估计和假设检验已经有许多工作,但是大多数都在均值回归的框架下。我们知道分位数回归模型提供了一个比对应的均值回归模型关于响应变量分布的更加完全的描述。因此在分位数回归框架下,单指标变系数模型的研究就显得尤为重要。变量选择对任何回归模型来说都是相当重要的一个问题。目前存在的关于单指标变系数模型的变量选择,大多数都是基于最小二乘方法。这样这些方法就继承了最小二乘方法的所有的缺点。特别是在有限样本条件下,这些方法对于异常点是十分敏感的。这样,当出现异常点时,用一个稳健的标准来代替最小二乘标准是值得期待的。然而,据我们所知,关于单指标变系数模型的稳健变量选择方法还没被提出。在第三章,考虑如下的单指标变系数模型其中(X, Z)∈Rp×Rq是协变量,Y是响应变量,g(·)是一个q-维的未知函数向量,β=(β1,…,βp)T是一个p-维的未知参数向量,对某个常数τ∈(0,1),模型误差ε满足P(ε≤0)=τ。在这个模型下,gT(pTX)Z是给定X和Z下响应变量Y的条件τ分位数。我们这里对误差ε的方差齐性或者厚尾概率不强加任何条件。为了可识别性,我们假设‖β‖=1,而且β的第一分量是正的,以及g(x)不能是下列形式g(x)=αTxβTx+-γTx+c,其中‖·‖表示欧式范数,＇,｜∈Rp,c∈R是常数,且α和β。我们在分位数回归框架下利用非参数方法提出了一个新的变量选择方法来同时选择和估计未知的参数和系数函数。新提出的方法利用压缩的思想,它能够同时选择有意义的带有函数系数的斜变量和带有参数系数的局部有意义的斜变量。具体地说,我们通过一些变换后得到目标函数其中Wi(φ)=Wi(β)。令φ和γ(γ1T,…,γqT)T表示通过最小化(0.7)而得到的解。那么,得到β和gk(u)的基于分位数损失函数的惩罚稳健回归估计分别为和在定义的正则条件下,伴有调整参数的合适选择,新的变量选择方法拥有选择的相合性和参数估计的oracle性质。而且,由于check损失函数在有限样本里对于异常点的稳健性,我们提出的变量选择方法比基于最小二乘标准的变量选择方法更加稳健。提出的变量选择方法能够很自然地应用于纯单指标模型和纯变系数模型。最后,我们通过数据数据和实际数据来举例验证我们提出的方法。随着数据收集技术的进步,超高维数据频繁地出现于多种科研领域。然而现存的变量选择方法,如：LASSO, Dangtzig, SCAD等等,都不能很理想地应对当预测变量个数p远大于样本个数n的情况。面对实际情况中日益预增的超高维问题,两阶段变量选择法得到了广泛的关注,即先使用变量筛选法对超高维数据进行降维,然后再利用其它更进一步的变量选择法进行精细地选择和参数估计。自从Fan and Lv(2008)提出Sure Independence Screening这一开创性工作以来,大量的文献致力于解决第一阶段中超高维变量的筛选问题。然而,大多数的特征筛选方法比如SIS以及其相关的版本紧紧依赖于指定的模型结构。而且,特征交互项在存在的文献中通常没有被考虑。在第四章中,在没有结构假设的条件下,我们针对带有交互项的模型提出了一个新的特征筛选方法。具体地说,当一个模型包含交互项而且交互项仅仅包含基本项的一次幂时,每一项可以写成统一的形式X1m1X2m2…Xpmp,其中m1,…,mp∈{0,1}且1≤m1+m2+…+mp≤p.为了给出新的特征筛选方法,我们首先定义其中m1,…,mp∈{0,1}.然后,新的边际效用准则的定义为那么ωm1,…mp可以看作是用来度量Y和X1m1X2m2…Xpmp边际效应的总体形式。新的排序标准是灵活的而且能够处理包含交互项的模型。而且,新的筛选方法是简单的,因此它在计算上是简单有效的。同时ranking consistency(?)sure screening等理论性质很容易被得到。在数值模拟实验中,通过考查各种不同类型的回归模型,我们再次验证了新提出的方法一致且显著地优于已有的特征筛选方法。在回归分析中,异方差检验很久以来就是一个标准的实践活动。当误差实际上是异方差时,对同方差模型而设计的方法可能导致效率的大量损失(Dette and Munk1998)。这样,在做统计推断之前,检验研究的模型是否有异方差时是非常重要的。在第五章中,受至She and Owen(2011)中方法思想的启发,我们基于惩罚方法提出对于线性模型的一个新的多元异方差检验方法。在本章中,我们考虑下面的线性回归模型其中Y是n维响应变量,X∈Rn×p固定设计矩阵,β∈Rp是未知的参数向量,ε是一个随机误差向量。为了方便,我们假设矩阵X的秩为p.我们假设ε均值为0和协方差阵为∑的多元正态分布,这里∑是对角元素为σ12,σ22,…,σp2的对角矩阵。为了表达的方便,我们记其为σ2=(σ12,σ22,…,σp2)T.第i情况可以表示为这里我们想检验线性回归模型(0.11)和(0.12)的潜在的异方差性。为了便于表达,我们记σ=(σ1,σ2,…,σn).不失一般性,假设σ大多数分量是1而且只有很少几个分量不是1(因为异方差不是常态).这蕴含着向量σ-1是稀疏的,这里1是一个所有分量都是1的n维向量。如果σi=1,那么第i情况是正常的；要不然,它是一个异方差。我们的目标是寻找一个σ的稳健估计,进而来识别整个数据异方差的情况。受σ-1的稀疏性启发,我们构造一个包含β和σ的惩罚似然目标函数,然后关于参数β和σ最小化这个目标函数：其中Pλ(·)是定义在区间[0,∞)上的函数值为正的惩罚函数,λ∈[0,∞)是一个调整参数。为了利用已有的算法和程序,我们将上述目标函数经过一些变换后得到新的目标函数注意到(0.14)式在形式上与SCAD-惩罚回归的目标函数相似。通过解上述优化问题我们得到γ的选择和估计,再根据γ和σ的对偶关系,我们可以得到σ的估计,进而得到整个数据异方差的情况。需要强调的是,新的方法不需要构造检验统计量,不需要求检验统计量的分布,进而避免比如求最大似然估计等这样复杂的运算。同时当存在多个异常点时,我们的方法可以一步给出所有的检验。同时,我们为了利用已存在的算法和软件,我们需要对新的方法提出新的算法以期能够利用现存的软件。

其他文献

颅内动脉瘤的家族性因素

颅内动脉瘤破裂出血是严重威胁人类生命的疾病,出血死亡率约50%(包括入院前死亡),而幸存者中约1/3不能生活自理,且有再次出血的可能.尽管神经影像学、显微神经外科及血管内治

期刊

颅内动脉瘤家族性遗传

ADAMTS13对缺血再灌注引发急慢性肾损伤的保护性作用及机制研究

感染、休克、心脏大手术以及肾移植过程中肾脏均会遭遇缺血再灌注(ischemia/reperfusion,IR)的情况,造成急性肾脏损伤(acute kidney injury,AKI)。而部分AKI患者会进展为慢性

学位

ADAMTS13VWF缺血再灌注氧化应激急慢性肾损伤rhADAMTS13急性肾损伤炎症慢性肾脏病

CD147诱导肝细胞极性丢失促进肝癌进展的分子机制研究

肝细胞具有独特的极性结构,其中两个相邻细胞形成胆汁腔面(即顶端膜),其余区域为窦状间隙面(即基底侧膜)。肝细胞极性的建立和维持对于正常细胞的生理功能和肝组织稳态至关重

学位

肝细胞癌肝细胞极性CD147E-cadherin

二氧化硫脲对有机化合物的还原研究进展

二氧化硫脲是一种有效、安全的新型还原剂,综述了由分光光度法和电势法研究得出的二氧化硫脲碱性水溶液的性质、二氧化硫脲的结构和不同条件下其溶液的性质变化。还综述了二

期刊

二氧化硫脲还原有机化合物

《国语》议论艺术研究

《国语》全篇以记言为主,记事为辅,在这些记言类文章中以论说文较多。本研究主要采用文本分析法和文献法,以《国语》中的论说文为研究对象,结合前人对类似文体的研究方法和研

学位

《国语》论说文议论艺术

聚乙二醇改性脱除煤沥青中3,4-苯并芘

以聚乙二醇为改性剂,研究在溶剂条件下降低煤沥青中3,4-苯并芘的工艺。研究表明,当混合溶剂V环己烷∶V甲苯=2∶1为反应溶剂、硫酸用量为煤沥青质量的6.67%、聚乙二醇600用量

期刊

煤沥青34-苯并芘聚乙二醇

带有资源约束的基础最短路径问题的算法研究

最短路径问题为图论中的一个经典问题,其算法的研究在优化问题中有着重要的理论价值,很多现实优化问题都可以转化为最短路径问题来进行求解。随着科学技术的飞速发展和日常生活的需要,传统的最短路径问题无法满足人们的需求,由此衍生出了带有各类资源约束的最短路径问题,本文中所研究的问题模型就是其中的一种,为带有时间窗和容量资源约束的基本最短路径问题(ESPPRC)。本文针对带有资源约束的基本最短路径问题的精确算

学位

最短路径时间窗约束路径拼接精确算法

天蓝色链霉菌膜蛋白复合物及部分脂蛋白功能的研究

细胞膜是原核生物细胞的重要组成结构,其功能主要涉及能量转换、物质运输以及信息识别与传递等。了解细胞膜的功能与机制,特别是物质的跨膜运输,具有重要的实践意义。我们分

学位

天蓝色链霉菌BNE电泳hrCNE电泳膜蛋白脂蛋白聚酮合酶

解吸、水解系统改造总结

<正>1改造目的陕西陕化煤化工有限公司通过扩能、优化措施将1套110 kt/a尿素水溶液全循环法尿素装置改造为300 kt/a尿素装置,各项消耗大幅度降低,全系统实现先进的DCS控制。

期刊

尿素工艺冷凝液水解槽给料泵换热器水解系统汽提塔碳铵液

社会文化理论——哲学根源、学科属性、研究范式与方法

社会文化理论(sociocultural theory,SCT)近年来受到国内SLA领域众多学者的关注,但现有的研究成果不论是在深度、广度和数量上都有待大力提高,而且在SCT理念的内涵、学科属性

期刊

社会文化理论维果斯基哲学根源学科属性研究范式研究方法

若干多元统计模型的适应性统计推断

与本文相关的学术论文