生存分析中删失数据比例对Cox回归模型影响的研究

来源 :南方医科大学 | 被引量 : 42次 | 上传用户:xiaziaipao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的和意义在生存数据研究中,Cox回归能处理不同生存时间分布的删失数据,无疑是生存分析中最常用最经典的方法。在实际应用中,删失比例很大并应用Cox回归进行生存分析的情形并不鲜见。此时,Cox估计结果的可靠性和准确性如何?Cox模型是否对删失比例没有任何限制?这些问题国内外尚无系统研究的报道。本课题旨在研究删失比例大小对Cox模型分析结果的影响,继而确定应用Cox模型进行生存分析时删失比例的限度。这一问题的解决不仅对删失数据研究具有重要影响,还将为生存分析应用领域提供一个可参考的标准,从而增强危险因素分析的可靠性,提升科学研究结论的质量。方法根据Cox的偏似然算法,回归系数由事件和删失发生的秩序确定,而并非具体的生存时间取值,删失数据的信息只体现在偏似然函数的风险集中。但若删失比例很大,必然导致回归结果的偏倚。本研究将从随机模拟的角度探讨删失数据对Cox模型分析结果的影响,考察Cox回归模型在不同删失比例条件下结果的偏倚性、准确性和有效性。一、参数设置1.协变量个数:单因素和多因素情形,多因素情形考虑协变量个数为2、4和8。在多因素情形下,设置部分协变量为无关因素,以考察Cox模型筛选影响因素的能力。2.生存分布:在已知的生存分布中,只有指数分布、Weibull分布、Gompertz分布满足Cox比例风险假定。分别设置生存时间的分布为以上这3种类型。3.删失分布:考察Ⅰ型删失和Ⅲ型删失(随机删失)。Ⅰ型删失设置为截尾分布,Ⅲ型删失设置为指数分布和均匀分布。4.协变量类型:离散型和连续型随机变量,取值分布有两点分布、正态分布、均匀分布、Gamma分布等。5.样本量大小:以协变量个数的倍数来设置,单因素情形设置为协变量个数的20,40,80……200倍;多因素情形还考虑10倍以及500倍。以样本量和协变量个数倍数的大小来划分,可将样本大小分为3个等级:样本量为协变量个数的20倍以下,定义为小样本;样本量为协变量个数的20倍~100倍,定义为中等样本;样本量为协变量个数的100倍以上,定义为大样本。6.模拟重复次数:所有参数组合条件下重复抽样500次。二、评价指标设置1.偏倚性:回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)。不同删失比例条件下回归系数估计值的相对误差称为MAD,而回归系数估计值的正负号发生改变的比例,以评价指标BIAS标志。MAD和BIAS数值越小,偏倚就越小。2.准确性:回归系数标准差比率(Stdratio)。不同删失比例条件下回归系数标准差的大小与完整数据下的相比,比值以评价指标Stdratio标志。Stdratio越小(越接近1),结果的准确性越高。3.有效性:回归结果显著性比率(Propower)。以完整数据的Cox回归结果显著性为前提条件,计算不同删失比例条件下回归结果显著性所占的比例,以指标Propower标志。Propower数值越大,结果的有效性越高。三、模拟研究过程1.根据生存时间的分布规律构造出完整数据。根据不同的生存分布类型,求出累积基准风险函数的反函数,设置不同的分布参数和协变量,产生相应条件下生存时间的完整数据。2.从完整数据中根据删失数据的分布随机抽样,产生不同删失比例的若干数据集。先根据删失分布类型和删失比例的设置,运用迭代计算,确定删失分布中参数的取值,然后生成删失时间数据。结合生存时间和删失时间,继而产生不同删失比例下含删失的生存数据集。3.再以完整数据建立的Cox模型为金标准,从参数估计、显著性检验等方面评价不同删失比例下Cox结果的准确性和可靠性,计算不同删失情形下评价指标数值。4.对不同删失比例条件下评价指标的变化趋势进行分析。各项评价指标都是删失比例的单调函数,为了研究单调的特性,引入了差分的概念。一阶差分的正负性代表函数的增减性。二阶差分代表单调变化的加速度,其数值围绕0附近表示函数近似呈线性单调;偏离0越远则函数递增(递减)趋势越大。结果一、结果的偏倚性。以回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)指标来刻画。1.在不同生存分布类型和协变量类型下评价指标MAD和BIAS结果类似。2.在删失分布为Ⅰ型删失(截尾分布)情形下偏倚略小,在Ⅲ型删失各种分布类型下结果近似。3.受回归系数大小的影响,回归系数越小,MAD数值会越大。4.随着删失比例的增大,MAD和BIAS数值逐渐增大,在删失较大时会出现加速增大(加速偏倚)的现象。加速偏倚的位置和样本量大小有关:小样本情形,删失比例在70%后偏倚加速增大;中等样本情形,删失比例在80%后偏倚加速增大;大样本情形,删失比例在90%后偏倚加速增大。二、结果的准确性。以回归系数标准差的比率(Stdratio)来刻画。Stdratio的变化主要和删失比例有关:其随着删失比例的增大而不断增大,在删失比例70%时中位数数值达到1.7以上且这种增大趋势会“加速”。Stdratio的增大和加速增大的趋势不受样本量大小的影响,在各种参数条件下数值接近。三、结果的有效性。以回归结果显著性比率(Propower)来刻画。Propower与协变量的标准差、样本量的大小等因素都有关,但它总是随着删失比例的增大而不断下降。四、极端值的分布在小样本和大删失的情形下,比较容易出现极端值的现象。取Stdratio数值大于100做为极端值来描述其分布,此时MAD最小值达到4.5,最大值超过1000,Cox回归的估计毫无意义可言。与Ⅲ型删失相比,Ⅰ型删失较少出现极端值现象。在小样本情形下,极端值的出现应引起重视。在单因素情形下,若事件数(死亡例数)小于10,极端值出现的可能性达到5%,若事件数小于6,极端值出现可能性上升到20%。结论删失比例的增大会造成Cox模型分析结果的准确性、有效性下降,偏倚性增大。在删失比例超过70%后,Stdratio中位数数值超过1.7且加速增大,结果的准确性大大下降。指标Propower数值总是随着删失比例的增大而不断下降。在小样本情形下,删失比例超过70%后,偏倚加速增大且极端值的可能出现应引起重视。中等样本情形下,删失比例超过80%后,偏倚加速增大。大样本情形下,删失比例超过90%后,偏倚加速增大。为了提高结论的准确性和可靠性,在应用Cox模型进行生存分析时,应检查删失比例是否超过最大限度:样本量为协变量个数20倍以内,删失比例不宜超过70%;样本量为协变量个数20~100倍之间,删失比例不宜超过80%;样本量为协变量个数100倍以上,删失比例不宜超过90%。总而言之,本研究揭示了删失比例对Cox模型结果的影响,根据课题的研究结果确定了应用Cox模型进行生存分析时删失比例的限度,为实际应用提供了参考依据。
其他文献
慕然回首,陕西中北农机公司已和迪尔公司共同走过了8个春秋,亲历了产品从市场开发、市场发展到市场辉煌的过程。回想当初,有朋友小聚,偶然间提起了话题——当今中国农机行业
期刊
克瑞森无核葡萄别名淑女红、克里森、绯红无核,由美国加州戴维斯农学院用皇帝与C33—199杂交育成,2000年在农6师新湖3场定植133.3公顷,经5年栽培表明,克瑞森是一个集晚熟、丰产、
新课标指出,科学探究是一种重要的学习方式,也是物理课程的重要内容。而物理是一门以实验为基础的科学,物理实验正是进行科学探究的主要方式。在物理教学中,实验既可以激发学生学
新稻17号由新疆农科院粮作所选育而成,2007年通过自治区品种审定委员会审定命名。一、特征特性1.特征性株型紧凑,计片直立,分蘖力强,株高91.5厘米,穗长18.53厘米,每穗总粒数139.4粒,空秕
收集和整理近年来国内完成的114根配置400MPa或500MPa级热轧带肋钢筋混凝土梁受弯试验短期裂缝结果,对GB 50010—2002《混凝土结构设计规范》的裂缝计算公式进行评估分析。分
目的探讨成人肠白塞病的临床特征及内镜特点,提高对此病的认识,减少误诊。方法回顾性分析我院2000年1月—2012年6月收治的17例肠白塞病患者的病历资料。结果肠白塞病患者临床
消防应急救援以保证社会安全,解救更多的公共财产和人民生命为最终目标。具备物联网化特点的室内三维电子地图,可为消防应急救援领域提高作战效率,并同时保证受困人群与消防
3月12日,在人们的欢呼声中,一辆崭新的拖拉机缓缓下线——这是约翰迪尔(宁波)农业机械有限公司加入迪尔大家庭后生产的第8888台拖拉机。迪尔公司农机部总裁戴维·埃弗雷与
主要介绍河北省铁矿行业发展现状和未来展望,总结分析河北省铁矿资源储量、供需平衡、存在问题和发展形势。