论文部分内容阅读
本文主要考虑带有非光滑辅助信息的情况在完全和缺失数据下的分布估计、参数估计、变量选择等问题.在统计推断时,有可能利用的信息不够充分,如在考虑最小二乘估计时,可能还知道误差分布关于0对称或方差为均值的函数,但在推断中并没有使用这些有用的信息.我们经常可以把这类辅助信息看成无偏估计方程,这个估计方程有时候是光滑的,如方差为均值的函数;但有时候是非光滑的,如中位数、样本分位数、分位数回归等等.这些非光滑信息不仅仅出现在完全数据下,还有可能出现在各种不完全数据下,如缺失数据、删失数据等.
由于辅助信息一般较多,但不能随意组合,或由于方法的缺泛未能很好地使用,本采用构造估计方程的方法,再利用估计方程估计思想对不同的辅助信息赋予不同的权重,从而改善或提高分布和其它参数的估计效率.已有的研究表明带权重的分布估计比经验分布估计(均匀权重)的效率有很大的提高.所以本文采取估计方程手段来构造带权重的分布估计.估计函数是参数和随机变量的某个函数,其期望为0,如E[ψ(Y,X,θ)]1=0,即称函数ψ(Y,X,θ)是无偏估计函数,对应的方程称无偏估计方程.对一般的估计方程,主要考虑参数个数多于方程个数的情况,这也称为过度识别.过度识别问题,在经济金融,生物医学等领域都是很频繁出现的.所以发展估计方程的研究是很有必要的,其广泛的应用也是显而易见的.
对于光滑的估计方程,在各种数据类型下都有很多文献研究.但是在实际中,大多数估计函数并不是光滑的,如果我们研究辅助信息为误差的分布关于0点是对称的,则可以考虑一个中位数回归问题.但这样构造的估计函数是非光滑的,之前的那些方法就会失效,本文将应用一种核光滑技术去光滑化这些非光滑估计函数.较系统的研究了基于非光滑估计方程的分布估计,以及它们的一些渐近性质和小样本下的模拟结果.本文还考虑了缺失数据下,对于非光滑估计方程,如何构造基于观测数据的渐近无偏估计方程.并详细地讨论了基于经验似然方法的参数估计和分布函数估计的渐近性质.
模型选择一直都是统计中最重要的问题之一.在高维统计建模和应用计量经济分析等重要问题中,模型选择是统计推断的重要基础.特别是随着科技的发展,数据的维数将是越来越大,这就要求寻找比较有效的方法处理高维数据,其中变量选择也就被频繁的讨论.本文考虑有辅助信息出现的情况下变量选择问题,采用SCAD惩罚函数,分别提出了惩罚的广义矩估计(GMM)和惩罚的经验似然估计(EL).给出了估计的相合性和Oracle性质.结合MM算法,通过数值模拟得出辅助信息对变量选择的准确性有很大的提高.
对疾病发生因素的研究,Case-control研究是一个很重要的方法.在生物医学,特别是在临床医学中有很多研究.很多文献考虑了Case-control研究下的线性Logistic回归模型.本文将线性的Logistic模型推广到变系数模型下.变系数模型克服了参数模型和参数方法不够灵活,容易导致模型误判,以及非参数模型的难解释性,并且在高维数据情况下,会出现所谓的维数祸根等缺点.利用Case-control实验的特性获得了辅助信息,把这个辅助信息看做无偏估计方程.本文根据估计方程的思想提出了一种局部经验似然方法,给出了函数系数的一个相合估计,并给出其渐近正态性.
文章主要分为六章,各章的内容如下.
第一章主要是简单地介绍研究背景和研究现状.
第二章研究了缺失数据下的基于光滑估计方程的分布估计.对于缺失数据,虽然已有很多文献讨论过分布函数的估计,但很少有文献在带有辅助信息的估计方程下考虑分布函数的估计.本章提出了带有辅助信息的缺失数据的估计方法.我们运用核光滑的估计方程插补法来插补缺失数据,从而降低缺失数据带来的不利影响.这样我们就可以运用辅助信息来估计概率分布函数以及该分布函数的第τ个分位数.从而可以推导出分布估计量和相应的样本分位数的渐近性质.本章方法所给出的分布估计明显优于那些没有考虑辅助信息的估计.本章在最后还做了一些数值模拟来说明所提出估计量的有限样本性质.
第三章主要是讨论基于非光滑估计方程的分布估计,主要思想是结合最小二乘估计和分位数回归估计以提高分布估计的效率.本章提出了带有非光滑辅助信息的一些响应变量的分布函数的估计,本章采用一种光滑技术来处理不可微的估计函数,因此,可以基于光滑化之后的辅助信息来估计分布函数.本章所提出的带有辅助信息的分布函数的估计显著优于不带辅助信息的估计.通过一些模拟实验考察了所提出的分布估计的有限样本表现.
第四章考虑的是结合最小二乘估计和分位数回归估计,在缺失数据下提高参数估计和分布估计的效率.采用第三章所提到的光滑技术和第二章所用的插补法构造一个渐近无偏的估计方程.由基于经验似然方法所得到的估计仍然是相合的、渐近正态的.还给出了响应变量的分布估计并讨论了其渐近性质.最后给出了一些数值模拟以考察所给估计的小样本性质.
第五章基于带有非光滑信息的估计方程,利用SCAD惩罚提出了惩罚的经验似然估计和惩罚的广义矩估计.应用前几章所提到的光滑技术处理非光滑估计方程.给出了两种惩罚估计的相合性、渐近正态性以及所谓的Oracle性质.给出了惩罚的广义矩估计的数值模拟,解释了小样本下的惩罚的广义矩估计的一些性质,与惩罚最小二乘估计相比较,惩罚的广义矩估计明显优越性.
第六章主要研究的是Case-control研究下的变系数Logistic回归模型.利用Case-control的特性,获取有用的辅助信息。本章通过局部经验似然方法给出了变系数Logistic回归模型的函数系数的非参估计.在某些正则条件下,这些估计是相合的、渐近正态的.