缺失数据下一类半参数回归模型的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ssqjwz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
局部线性拟合和截面核方法在非参数及半参数建模中是非常有用的工具.然而,当响应变量或协变量缺失时,在统计推断中需要发展这两种方法.本文通过改进这两种估计方法研究了缺失数据下一类半参数回归模型中兴趣参数的估计问题,这些模型包括:广义部分线性模型、广义变系数模型和半参变系数模型.本文所分析的数据有协变量随机缺失和响应变量随机缺失两种. 本文主要做了如下几个方面的工作: 第一,在响应变量随机缺失下,综合局部线性拟似然方法、完整个体方法和借补缺失值的借补方法,构造了缺失数据广义变系数模型中非参数系数函数的拟似然估计,证明了估计量的渐近正态性,并利用模拟比较其有限样本性质.另外,本文还利用借补方法及倾向得分加权借补方法构造了响应变量均值的借补估计,并研究了估计量的渐近性质,由研究结果可知函数系数的两个拟似然估计具有相同的渐近方差.模拟研究演示了它们的有限样本性质.当利用交叉核实法分别选取两个估计的窗宽时,模拟结果显示模型的借补估计优于完整个体估计,响应变量均值的借补估计要比加权借补估计稳定. 第二,研究了缺失数据下广义部分线性模型中非参数分量和参数分量的估计方法.在响应变量随机缺失下,首先利用非参数局部线性拟似然方法和完整个体方法对广义部分线性模型中非参数分量和参数分量进行估计,然后将非参数回归函数用它的估计量替代,求得参数部分的拟似然估计,由此可得到模型的完整个体估计.用此估计填补缺失的响应值,再利用完全数据的拟似然方法,得到模型中参数分量和非参数分量的借补拟似然估计.证明了所提出的估计量都具有渐近正态性.此外还利用借补方法及倾向得分加权借补方法构造了响应变量均值的借补估计.另外当协变量随机缺失时,利用逆选取概率加权估计方法研究了广义部分线性模型的估计问题.研究结果发展了局部线性估计方法.模拟研究表明在响应变量随机缺失下,模型的借补估计优于完整数据估计,响应变量均值的借补估计要比加权借补估计稳定.当协变量随机缺失时,模型的加权估计要比完整个体估计有效. 第三,研究了半参数变系数模型.在响应变量随机缺失条件下,综合截面核估计方法、完整个体估计方法、借补缺失值的借补估计方法以及局部线性估计方法,构造了缺失数据半参数变系数部分线性模型中参数分量和非参数系数函数的截面核估计,构造了响应变量均值的借补估计,证明了所提出的估计具有渐近正态性.模拟研究显示模型的借补估计优于完整个体估计,响应变量均值的借补估计要比加权借补估计稳定. 第四,研究了具有不可忽略纵向退出的半参变系数混合模型.借鉴纵向变系数模型的两步估计方法及半参变系数模型截面核方法,分别在退出时间为离散和连续两种情形下,提出了模型中有关参数的估计方法.在广义半参数变系数线性混合模型的一般框架下,结合拟似然方法、局部线性方法和EM算法的思想来估计模型中的未知参数和非参数系数函数. 本文特点如下: (1)在响应变量随机缺失时,利用回归填补方法和完全数据的拟似然方法构造了一类半参数模型中未知参数和非参数分量的估计.与一般的独立同分布样本不同,由借补方法得到的完全数据是不独立的,因此在研究借补估计的渐近性质时存在一定的难度,本文的研究结果发展了缺失数据下半参数模型的统计方法. (2)当协变量随机缺失时,利用逆选取概率加权法和拟似然方法研究了广义部分线性模型中参数与非参数分量的估计问题.因为协变量的缺失与响应变量的取值有关,仅对完整个体应用拟似然方法无法得到模型中参数与非参数分量的相合估计.而以选取概率的逆为权重的加权拟似然是完全数据拟似然的无偏估计.当选取概率用它的估计量代替时,相应的加权拟似然是完全数据拟似然的渐近无偏估计,由此可得到模型中参数与非参数分量的相合估计.由模拟结果可知,加权估计要比完整个体估计更有效. (3)提出了半参数模型的非参数分量的两个估计,即完整个体估计和借补估计.估计量中使用不同的窗宽,这使得借补估计的偏差减少.当利用数据驱动窗宽时,方差也会更小.从而利用交叉核实方法分别选取窗宽,可使借补估计更有效,并在模拟中给出了相应的解释. (4)通过研究发现响应变量的均值借补估计要比加权借补估计更稳定.这是因为当响应变量缺失时选取概率的逆大于1,使得加权借补估计中的权重取负值,另外还由于选取概率的核估计可能会遇到维数的灾祸问题. (5)在研究具有不可忽略纵向退出的半参数变系数混合模型且退出时间离散取值时,将原模型化为几个子模型来处理,克服了由于参数过多而容易引起的多重共线性问题;当退出时间连续取值时,利用截面核方法估计模型中参数与非参数分量.这些结果都是全新的.
其他文献
本文探究了高职《财务会计》课程教育存在的问题,并基于岗位导向,提出了该课程教育改革策略,对于实现《财务会计》专业课程教育工作的创新发展,实现高职教育的创新发展是一种
线搜索方法和信赖域方法是解最优化问题的两类最基本的算法框架。求解线搜索方向和信赖域予问题分别是其关键的组成部分之一,另一个关键点自然是算法框架本身了。本文主要讨论
本文基于粗集和Vague集理论,提出了两种心电图特征点识别的方法:一是改进了心电图分析中的射线拟合法,避免了快速拟合法中拟合曲线在波峰和波谷周围出现过度平滑的不足,从而
单指标模型是只有一个未知参数向量且联系函数未知的回归模型,常见的logistic模型、log-linear模型、probit模型等重要的统计模型是单指标模型特殊的参数形式。单指标模型在工
环论是数学中非常庞大的分支,它有着悠久的历史,讨论不尽的课题。近年来,分次环理论被人们广泛地讨论。用G表示任意群,环R称为G-分次的,S[1]对于有限群G引入了Smash积R#G的概念,并讨
概率论是研究随机现象统计规律性的数学分支,它在自然科学、社会科学和生产实际中都有着广泛的应用.大偏差原理理论自上世纪六十年代引入,其研究的是一种遍历性收敛速度的问
我们已经知道确定图的交叉数是一个NP完全问题(见文献[2]),正是因为其计算复杂性,目前为止有关交叉数的结果比较少,甚至在许多情况下,找出图的一个好的上界或下界也很艰难。对具
现实生活中,我们往往对学生有很高的期望,难免出现“恨铁不成钢”的言行,人为地给孩子造成身心的“伤害”,结果事与愿违,欲速则不达.只要教师用真心去碰撞学生心灵,用真切语
20世纪70年代早期,由于并行计算机系统有很多好的性质,如速度快,容量大,功能强等等,产生于实际需要.同时,这也刺激并推动了数值分析中并行算法的构造. 在这篇文章中,我们首先给出两
互联网+时代已经全面来临,作为一种创新发展趋势,互联网+对各行各业的发展产生重要影响.当前高校公共管理专业人才培养中存在重视程度不够、知识体系单一、教学方法陈旧等问