几类复杂数据下剩余寿命的非参数和半参数统计分析

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:gaozheng929292
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究了在复杂数据(左截断和右删失数据、长度偏差和右删失数据)下,剩余寿命的统计推断和应用的问题.剩余寿命指个体活过t时间后还能存活的时间,广泛应用于很多领域,如医学的寿命试验,工程中的耐久性试验和可靠性研究,金融领域的风险研究,保险公司的保费制定研究,以及社会学中失业时间的研究等.剩余寿命直观易解释,应用广泛,也是当今统计研究的热点,因此,对该问题进行研究在理论和实践中都意义重大.本文主要分为四章,第一章介绍剩余寿命问题的背景、研究现状和本文研究的动机、主要内容和创新之处.第二章到第四章分别基于不同的复杂数据结构构建剩余寿命模型进行研究,提出了相应的估计方法并给出估计的渐近性质,以及应用于实际数据进行分析.  在统计研究中,收集和分析数据是非常重要的首要步骤,因为不同的数据结构会影响统计模型的建立和统计方法的合理使用.而且随着科技在社会各领域的不断发展,完全可观测的独立同分布数据即“简单数据”往往在试验中很难获得,实际观测到的数据也越来越复杂,复杂的数据结构会影响到剩余寿命模型的建立,因此就需要对复杂的数据结构进行深入分析,根据不同的数据特点来建立合适的统计模型,并研究相应的方法进行统计推断.  常见的复杂数据有很多种,本文在第二章中主要对左截断和右删失数据下的剩余寿命分位数模型进行研究.左截断数据是指只有满足一定条件的个体才能进入试验样本的一类数据,例如在寿命研究中,左截断变量为从初始事件发生(如:发病)到试验开始的时间段;右删失数据是生存分析中另一种常见的数据类型,由于试验时间有限,有些观测样本在试验结束时还未发生失效,或者试验过程中提前离开试验或因别的原因而失效,这样我们仅知个体在该时间段内存活过而不知其具体失效时间的数据称为右删失数据.在实际抽样中,往往同时具备以上两种数据类型,因此数据分析时需要对这两种数据综合考虑.第二章中,我们在左截断和右删失数据下用估计方程的方法研究了剩余寿命分位数的非参数估计.通过剩余寿命分位数的定义构建估计方程,进而解估计方程得到剩余寿命分位数的估计,并证明了其大样本性质.在计算估计方差时,我们采用了两种重抽样的方法:一种是经典的bootstrap方法,另一种是改进的bootstrap法,后者的计算速度是前者的至少4000倍,模拟结果表明我们的估计方法能得到很好的估计结果,并展示了如果忽略左截断信息,则会造成有偏估计.最后,我们用该方法分析美国Channing House数据,对其中老年人的剩余寿命分位数进行研究,并得到合理的结果.  除了左截断和右删失数据在抽样中很常见,由于流行队列抽样法的普遍使用,另一种特殊的左截断数据,即长度偏差数据,也非常常见.长度偏差数据是指抽样中,个体被观测到进入样本的概率与其长度成正比的一类数据,该类数据并非从总体中等概率随机抽取,因此是一类有偏数据.其特殊性就在于此类数据满足“平稳条件”,即事件的发生过程是一个平稳的泊松过程,从而截断变量服从均匀分布,并表现为个体被观测到的概率与其长度成正比.而右删失机制将进一步增加长度偏差数据的复杂度.在长度偏差和右删失数据中,由于失效变量和删失变量具有共同的部分,即截断变量,因此该情况下的删失是有信息删失,很多经典的统计方法如Kaplan-Meier估计等将失效.因此,在对长度偏差数据研究时,应考虑到有信息删失和截断变量服从均匀分布的信息,从而得到合理的估计并提高估计的有效性.在本文第三章中,我们对长度偏差和右删失数据下的剩余寿命分位数问题进行了研究.我们首先将第二章的方法推广到长度偏差和右删失数据下的剩余寿命分位数模型中,但这里需要把长度偏差数据下截断变量的辅助信息加入考虑,因此我们首先基于剩余寿命分位数的定义构建估计方程,提出不含协变量的非参数估计方法,并在估计中考虑截断变量和进入试验后的剩余存活时间同分布的辅助信息,来提高估计的效率.接着,进一步考虑协变量的影响,在假设总体生存分布服从Cox比例风险模型下提出新的统计方法,用复合部分似然法来对回归参数进行估计,进而得到剩余寿命分位数的估计.在此基础上,又进一步研究了两样本比较的问题,提出相应的统计量.模拟结果显示我们的方法能得到很好的结果.最后,我们用提出的估计方法研究美国老年痴呆数据,对几种不同情况下的老年痴呆患者的剩余寿命分位数进行估计,并进一步考虑性别的影响,分别研究观测中男性和女性患者群体的剩余寿命,并得到合理的结果.  均值剩余寿命模型也是实际研究中常用的一种模型,在平均的水平上给出总体的剩余寿命值,意义直观易解释,因此本文第四章在长度偏差数据下,对成比例的均值剩余寿命模型进行了研究.该章考虑实际抽样中常常同时收集到事件队列抽样数据和流行队列抽样数据,而文献中通常分别基于两队列数据进行研究,但实际中舍弃任何一组数据都会造成估计效率的大大下降.因此该章在成比例的均值剩余寿命模型下,同时利用事件队列和流行队列中协变量的信息对协变量效应进行估计,通过把三种不同的方法结合来构造估计方程,进而用广义矩估计方法(GMM)得到协变量效应的估计及统计大样本性质.模拟结果显示,我们提出的估计方法与单独使用各种方法相比,确实能显著提高估计的效率,而且应用于美国老年痴呆数据中也得到合理的结果.
其他文献
追剧、玩游戏时,你还在心疼流量吗?专业的免费WiFi管理工具——《腾讯WiFi管家》,为用户提供了安全免费的WiFi网络连接体验。近日,腾讯手机管家官方微博发布称,“你和好WiFi,
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该论文分为三个部分,第一部分对信用风险的概念、性质和特点进行了界定,第二部分着重介绍了西方流行三个信用风险管理模型,即KMV模型,CreditMetrics模型和RAROC模型,并进行了
该文从不同视角剖析了金融衍生品在运作中所派生出来的风险.通过对风险的成因、特征、负面效应以及风险体系和评估方法的深入分析,提出了防范风险的两种方式,即内部控制和外
期刊
该文首先对企业所得税税收筹划进行了全面的理论阐述,介绍国内外企业所得税筹划的现状,概括性介绍企业所得税筹划方法,为研究负债融资所得税筹划策略做铺垫.而后从理论探讨和
该选题主要包括以下几部分:第一章 中小企业政策性金融的概述.该部分主要从中小企业政策性金融的定义、特征及职能、中小企业政策性金融的体系构成两大方面对有关中小企业政
设计圈里一直盛传这样一句话:“设计细节决定设计品质”.今天就带各位“小主”扒一扒版式设计中的那些有大讲究的小细节.rn元素层级关系rn首先我们来看字号,在版式设计中,一
期刊
该文在论述投资基金的有关概念和作用的基础上,对行为分解法和国外传统基金业绩评估方法进行了比较研究分析,并分别从基金业绩的风险-收益匹配和对基金持股水平分析的角度出发,