论文部分内容阅读
在过去的一个世纪,概率论及计算科学的迅猛发展无论从理论上还是实际应用中都极大地推动了现代统计学的发展。如今,统计概念、方法及模型等已广泛应用到生活中的不同领域,例如在临床试验、金融、保险、工程、社会调查中等,用以分析数据和作出相应推断。通常,一个完整的统计分析过程包括三步:数据的收集、基于各种统计工具的分析,对结果的解释和之后的实际应用。在本文中,我们主要关心的是对生存分析中常见的右删失数据及偏差数据的半参数估计及推断,并分别基于密度比模型、线性转移模型和部分线性转移模型做了相关研究,此外通过实际例子我们说明了这些方法的实际应用。 第一章首先介绍了我们的研究背景。随后,对于论文中涉及的几种数据类型,分别是右删失数据、长度偏差数据及一般偏差数据,我们一一做了介绍,并列出了相关的参考文献及典型的实际数据集。这一章中我们还给出了所用到的三种半参数模型,即密度比模型、线性转移模型和部分线性转移模型,以及其相关的研究成果。这一部分是后面章节的基础知识。 这篇论文的主体部分包含三项工作,分别安排在第二至第四章中。在临床药物试验中,研究者常常会比较两个药物的治疗效果的优劣。受到这个实际问题的启发,我们以密度比模型为基础,研究了临床试验中常见的两样本右删失数据。我们提出了一个半参数极大似然估计,并且通过EM算法可以求得相应的估计。利用经验过程理论,我们证明了估计的一致相合性和渐近正态性。此外,我们采用一个Kolmogorov-Smirnov型检验统计量来检验模型假设的合理性以及一个似然比检验统计量来比较两样本之间的治疗效果。我们提出的方法可以很好地解决上面的实际问题,并且通过数值模拟以及和已有的两种估计方法之间的对比,发现它在有限样本下表现良好。进一步,我们应用提出的方法来比较治疗原发性胆汁性肝硬化的两种药物的治疗效果。更多细节详见第二章。 统计中,回归分析是最常用的研究响应变量与独立变量之间关系的工具。在第三章,我们考虑了一般偏差右删失数据下的协变量效应。考虑到半参数线性转移模型包含常用的比例风险模型和比例比率模型作为特例,并能很好地刻画生存时间与协变量之间的相依关系,因此我们选用此模型作为我们分析的基础。在此模型假设下,我们构造了一个基于计数过程的无偏估计方程来同时估计未知的回归系数及调整数据本身的偏差,并且证明了我们的估计是相合的和渐近正态的。我们推导出了回归系数的估计的渐近方差的表达式,它可以由一个plug-in估计相合地估出。数值模拟以及和已有的只考虑右删失而未考虑数据偏差的估计方法的比较显示了所提估计在小样本情形下表现良好。此外,我们通过两个临床试验中的具体例子来说明所提方法在实际中的应用。 长度偏差数据可以看成是第三章中所考虑的一般偏差数据的一种特例,它在我们的生活中常常出现且已被广泛研究。考虑到已有文献中对于长度偏差数据的分析主要停留在无偏分布函数的非参数估计,或者线性协变量效应的估计上,第四章中我们采用部分线性转移模型来同时考虑长度偏差右删失数据的线性及非线性协变量效应。我们利用局部线性拟合技术,分别构造了一个全局的和局部的无偏估计方程来同时估计未知的协变量效应,且我们的估计可以通过迭代算法求得。通过适当地选取窗宽和一些正则性条件的约束,我们模型中参数部分的估计是根号n相合且渐近正态的,同时非参数部分的估计也达到了通常非参数回归中的收敛速度。我们用bootstrap重抽样方法来估计回归系数的渐近方差,并通过数值模拟及对奥斯卡提名数据的分析说明了所提方法在有限样本及实际生活中的应用。 最后,第五章中总结了我们所做工作的主要贡献及存在的局限性。基于这些,我们给出了一些可供未来研究的问题。