在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题

来源 :云南大学 | 被引量 : 0次 | 上传用户:chchone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要考虑带有非光滑辅助信息的情况在完全和缺失数据下的分布估计、参数估计、变量选择等问题.在统计推断时,有可能利用的信息不够充分,如在考虑最小二乘估计时,可能还知道误差分布关于0对称或方差为均值的函数,但在推断中并没有使用这些有用的信息.我们经常可以把这类辅助信息看成无偏估计方程,这个估计方程有时候是光滑的,如方差为均值的函数;但有时候是非光滑的,如中位数、样本分位数、分位数回归等等.这些非光滑信息不仅仅出现在完全数据下,还有可能出现在各种不完全数据下,如缺失数据、删失数据等.   由于辅助信息一般较多,但不能随意组合,或由于方法的缺泛未能很好地使用,本采用构造估计方程的方法,再利用估计方程估计思想对不同的辅助信息赋予不同的权重,从而改善或提高分布和其它参数的估计效率.已有的研究表明带权重的分布估计比经验分布估计(均匀权重)的效率有很大的提高.所以本文采取估计方程手段来构造带权重的分布估计.估计函数是参数和随机变量的某个函数,其期望为0,如E[ψ(Y,X,θ)]1=0,即称函数ψ(Y,X,θ)是无偏估计函数,对应的方程称无偏估计方程.对一般的估计方程,主要考虑参数个数多于方程个数的情况,这也称为过度识别.过度识别问题,在经济金融,生物医学等领域都是很频繁出现的.所以发展估计方程的研究是很有必要的,其广泛的应用也是显而易见的.   对于光滑的估计方程,在各种数据类型下都有很多文献研究.但是在实际中,大多数估计函数并不是光滑的,如果我们研究辅助信息为误差的分布关于0点是对称的,则可以考虑一个中位数回归问题.但这样构造的估计函数是非光滑的,之前的那些方法就会失效,本文将应用一种核光滑技术去光滑化这些非光滑估计函数.较系统的研究了基于非光滑估计方程的分布估计,以及它们的一些渐近性质和小样本下的模拟结果.本文还考虑了缺失数据下,对于非光滑估计方程,如何构造基于观测数据的渐近无偏估计方程.并详细地讨论了基于经验似然方法的参数估计和分布函数估计的渐近性质.   模型选择一直都是统计中最重要的问题之一.在高维统计建模和应用计量经济分析等重要问题中,模型选择是统计推断的重要基础.特别是随着科技的发展,数据的维数将是越来越大,这就要求寻找比较有效的方法处理高维数据,其中变量选择也就被频繁的讨论.本文考虑有辅助信息出现的情况下变量选择问题,采用SCAD惩罚函数,分别提出了惩罚的广义矩估计(GMM)和惩罚的经验似然估计(EL).给出了估计的相合性和Oracle性质.结合MM算法,通过数值模拟得出辅助信息对变量选择的准确性有很大的提高.   对疾病发生因素的研究,Case-control研究是一个很重要的方法.在生物医学,特别是在临床医学中有很多研究.很多文献考虑了Case-control研究下的线性Logistic回归模型.本文将线性的Logistic模型推广到变系数模型下.变系数模型克服了参数模型和参数方法不够灵活,容易导致模型误判,以及非参数模型的难解释性,并且在高维数据情况下,会出现所谓的维数祸根等缺点.利用Case-control实验的特性获得了辅助信息,把这个辅助信息看做无偏估计方程.本文根据估计方程的思想提出了一种局部经验似然方法,给出了函数系数的一个相合估计,并给出其渐近正态性.   文章主要分为六章,各章的内容如下.   第一章主要是简单地介绍研究背景和研究现状.   第二章研究了缺失数据下的基于光滑估计方程的分布估计.对于缺失数据,虽然已有很多文献讨论过分布函数的估计,但很少有文献在带有辅助信息的估计方程下考虑分布函数的估计.本章提出了带有辅助信息的缺失数据的估计方法.我们运用核光滑的估计方程插补法来插补缺失数据,从而降低缺失数据带来的不利影响.这样我们就可以运用辅助信息来估计概率分布函数以及该分布函数的第τ个分位数.从而可以推导出分布估计量和相应的样本分位数的渐近性质.本章方法所给出的分布估计明显优于那些没有考虑辅助信息的估计.本章在最后还做了一些数值模拟来说明所提出估计量的有限样本性质.   第三章主要是讨论基于非光滑估计方程的分布估计,主要思想是结合最小二乘估计和分位数回归估计以提高分布估计的效率.本章提出了带有非光滑辅助信息的一些响应变量的分布函数的估计,本章采用一种光滑技术来处理不可微的估计函数,因此,可以基于光滑化之后的辅助信息来估计分布函数.本章所提出的带有辅助信息的分布函数的估计显著优于不带辅助信息的估计.通过一些模拟实验考察了所提出的分布估计的有限样本表现.   第四章考虑的是结合最小二乘估计和分位数回归估计,在缺失数据下提高参数估计和分布估计的效率.采用第三章所提到的光滑技术和第二章所用的插补法构造一个渐近无偏的估计方程.由基于经验似然方法所得到的估计仍然是相合的、渐近正态的.还给出了响应变量的分布估计并讨论了其渐近性质.最后给出了一些数值模拟以考察所给估计的小样本性质.   第五章基于带有非光滑信息的估计方程,利用SCAD惩罚提出了惩罚的经验似然估计和惩罚的广义矩估计.应用前几章所提到的光滑技术处理非光滑估计方程.给出了两种惩罚估计的相合性、渐近正态性以及所谓的Oracle性质.给出了惩罚的广义矩估计的数值模拟,解释了小样本下的惩罚的广义矩估计的一些性质,与惩罚最小二乘估计相比较,惩罚的广义矩估计明显优越性.   第六章主要研究的是Case-control研究下的变系数Logistic回归模型.利用Case-control的特性,获取有用的辅助信息。本章通过局部经验似然方法给出了变系数Logistic回归模型的函数系数的非参估计.在某些正则条件下,这些估计是相合的、渐近正态的.
其他文献
很多学生虽然不是特别喜欢学习,但是爱玩、好动却是他们的天性。所以我们可以在物理课上给学生大量的“动”的机会,以此来充分提高学生的学习效率,尽可能地调动学生各方面的
变分不等式问题是应用数学领域中一个非常重要的研究方向,许多优化问题都可以转化为变分不等式进行研究。研究变分不等式问题的求解算法具有重要的理论意义和实际应用价值。研
本文以我国上市公司的财务数据为研究对象,基于Cox比例风险模型,提出了一种基于修正经验似然的变量选择方法,用修正经验似然的方法对Cox模型进行修正,并用此方法进行财务分析
分数应用题是小学阶段十分重要的知识,数学应用性很强,但由于内容抽象,数量关系复杂,牵涉面广,在解决一些较复杂的分数应用题时,存在部分学生在“量”和“分率”之间混淆,不
本文研究一对等价流同时达到极端复杂和极端简单的奇异现象。  从拓扑熵的角度看,我们构造一对有奇点等价流,一个有零拓扑熵,一个有无穷拓扑熵。这将Ohno[18]和Sun-Young-Z
本文对流行病学研究中的一些热点问题从列联表的角度分析和讨论了它们的统计推断问题。   为了研究某种流行病的流行程度,人们常需要对感兴趣的个体是否感染了这种疾病进行
一、青海省现代服务业发展现状(一)现代服务业的经济总量根据《2015年青海省统计年鉴》的数据计算,2013年青海省经济总量达到2122.06亿元,第三产业增加值达到766.06亿元,现代
本文主要针对高维反常扩散方程设计和分析高精度的数值格式,并应用于具有实际应用背景的模型问题的计算。具体内容如下:  第一章,概述了整数阶和分数阶扩散方程的研究现状,从
参赛单位上海宇航系统工程研究所公司简介上海宇航系统工程研究所隶属于上海航大技术研究院,是以航天运输系统总体和空间结构机构产品为主业的综合性宇航工程研究所。该研究
本节主要研究Rn(n=2,3)中不可压缩粘弹性流体方程组中的Oldroyd模型:此处省略公式这里 u(t,x)表示速度场,p表示压力,μ表示粘性系数,矩阵 F是形变张量. Oldroyd模型(0.0.1)描述的