几类数据下非参数及半参数估计的统计性质研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:Jewellerymay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是统计研究之源,没有数据,统计研究无从谈起,而现实给了我们丰富多彩的数据.近几十年以来,随着社会经济的发展,生命科学、医学研究、生物统计、金融风险等众多领域涌现出大量的各种数据,例如左截断数据、右删失数据、长度偏差右删失数据、Case-Control两样本数据、缺失数据等复杂数据以及各种各样的相依类型数据.各种数据其成因的机制不同,所用到的统计模型、分析工具也不尽相同.如何有效地对这些数据进行统计分析已经受到了国内外统计学者的广泛重视,其研究结果不仅具有重要的理论意义,而且具有广泛的应用前景.在本文,我们主要研究三种类型的数据:长度偏差右删失数据、Case-Control两样本数据、两两NQD相依抽样误差数据,相应地,所涉及是长度偏差右删失数据模型、两样本密度率模型、固定设计回归模型等的统计模型下非参数、半参数估计量的统计性质研究.  关于长度偏差右删失这样复杂的不完全数据,已有许多专家学者做了不少的研究.Huang和Qin(2011)结合了这类数据的特点,对生存函数的Kaplan-Meier乘积限估计做了改进,提出了一个长度偏差右删失数据下生存函数的非参数估计量,同时给出了相应随机过程的一个表示形式,从而得到估计量的渐近正态性.但其中的表达式毕竟是一种弱的形式,在很多情况下这种结论还是不够用,例如,在乘积限估计量的振动膜、高斯强逼近等的研究上,都需要估计的强表示定理.而据我们所知,这方面的工作还未有人对这个问题进行研究,在本文的第二章,受Zhou和Yip(1999)的启发,基于Huang和Qin(2011)工作,借助经验过程的方法,我们研究了这个非参数估计量累积危险函数、分布函数的强表示问题,得到了相应的两个强表示定理,其中的余项收敛速度是O(n-3/4(logn)3/4)a.s.同时作为这两个强表示定理的应用和深入,我们研究了累积危险函数过程、分布函数过程的高斯强逼近问题,得到的高斯强收敛的深刻结果.而在第三章的第一部分,我们仍在第一章所建立的强表示的基础上,讨论研究了长度偏差右删失数据的分位数估计,通过建立其相关的引理,得到了分位数估计的相合性、Bahadur的表示定理及其在正态性质以及在分位数差估计、分位数高斯强逼近上的应用.本文的第四章,继续考虑长度偏差右删失数据的统计推断,在这一章,我们考虑的是治愈率(cure)混合模型.实际上这里涉及的也是很现实的问题,因为现实中,如流行队列抽样设计里,会遇到的是有一定比例的“病人”被治愈了而具有免疫能力,那么如何对被治愈的比例进行有效估计,是一个令人感兴趣的问题.但这个问题复杂,除了“未被治愈的病人”由于删失而看不到其真实的“失效”时间,还有是因为部分“病人”被治愈而导致删失,两者的混合给了统计推断带来极大的挑战.在这一章,针对这类数据,我们在Huang和Qin(2011)以及Maller和Zhou(1992)的基础上,考虑治愈率估计问题.我们提出了一个非参数估计量,并研究了这个估计量的相合性,建立了相应的渐近正态性质.  本文要研究的第二类数据是流行病学中探索病因的一种常见数据,即病例对照(Case-Control)两样本数据,这是医学统计中经常关注的.例如,对一组患有肺癌的病人(Case)以及一组未患肺癌但具有可比性的人(Control),调查他们的受雾霾影响(暴露)历史(可包括现在所在城市是否经常雾霾,雾霾的程度,雾霾的年份,一年中雾霾的天数等等).调查的目的是为了通过比较两组雾霾对肺癌的影响差别,检验雾霾(可疑病因)与疾病(肺癌)有因果联系的假设.对这类数据,我们考虑在一类较为宽泛的两样本密度率模型假设下的两个问题.一个是利用通常的经验似然方法,首先得到极大经验似然估计量,据此我们建立经验似然分位数估计量的Bahadur表示定理,得到的余项收敛速度是Op(n-3/4(log n)1/2).这一结果,相比Zhang(2000)中关于分位数的结论来得简洁直观、收敛速度也更为精确,而证明方法上是不同的.这方面的研究可见本文第三章的第二部分.另外一个问题是,在流行病理研究及临床试验中,会遇到怎么评价两个治疗的效果问题,这里我们感兴趣的是怎么估计两者的治疗效应△.在这个模型中,会有模型中所特有的辅助信息,基于这个辅助信息,我们借助估计方程的思想(周勇,2013),建立一个无偏估计方程,并作为一个限制条件,加入到分布函数的估计中,得到关于△的极大经验似然估计量(△)EL.我们在第五章给出了经验似然估计方法并验证了估计量(△)EL的相合性,同时也得到了渐近正态性以及经验似然率统计量的渐近卡方分布等的大样本统计性质.  本文所研究的第三类数据是两两NQD抽样数据,这是一类非常广泛的非独立随机数据,包含了独立随机抽样以及著名的NA等相依抽样数据为特例,因此对这类数据的研究就显得更为基本,更具有普遍性.但由于这类数据的广泛性,相应的经典性质并不一定具备,一些独立或鞅差情况下的方法并不能用,因此,这方面的成果相对较少.本文的第六章,在带有两两NQD抽样误差的固定设计回归模型,我们考虑一种光滑化非参数线性估计量,研究并建立其相合的大样本性质.也希望通过这方面的研究,尝试将非独立的抽样数据理论,延伸到不完全数据构架下进行统计建模.
其他文献
由于统计学发展以及与其它交叉学科的实际应用不断深入,并随着科学技术的进步,生物医学,经济学,社会学,教育心理学等领域中不断出现了各种复杂的不完全数据,包括左截断数据,右截断数
文中介绍了一个程序规范自动检测与修正系统ADRS的理论模型.在开放逻辑的思想基础上,文中提出了一种自动修正模型,并试图对李未提出的3个问题给出解决方案.作为对第1个问题的
作为一个以营利为目的的企业组织,银行通过各种形式的金融负债筹集金融资源,并以多种金融资产为经营对象,具有信用创造功能。商业银行在经济运行中发挥重要的金融中介功能。通过
利用保关系的思想,定出了部分二值逻辑函数中准完备集的最小覆盖.从而给出了部分二值Sheffer函数的最简判定方法.该方法具有重要的理论和实际意义.
期刊
中国自80年代初实行改革开放、恢复国债发行以来,国债在筹资和经济的宏观调控方面发挥了巨大的作用.随着改革的深入,国债规模日益扩大,在进入90年代后更是以惊人的速度膨胀.正由
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
随着中国入世,中国的市场将进一步放开,中国的弱质产业--农业将不可避免地受到冲击与挑战,国家调整农业保护战略和政策势在必行.加入WTO,进行农业战略性政策调整,对中国农业
随着以大数据、搜索引擎、云计算、社交网络为代表的互联网技术的发展,金融行业正呈现出前所未有的发展态势:跨界、融合、变革。新的业态背景下,互联网与商业银行面临新的格局:
期刊