生存分析中离群值检测方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:weidaxia888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的本文拟构建考虑生存数据中离群值问题的参数生存模型,利用Bayes方法对模型进行参数估计与统计推断,以期进一步深入、系统地补充或完善生存分析中离群值检测的方法,使生存资料能够得到更加充分的挖掘与利用,为我们全面了解疾病的发生与发展提供方法学支持。方法1、在传统的指数回归模型与威布尔回归模型中加入一个n维的漂移向量γ作为离群值指示变量来构建参数生存离群模型。2、采用Bayes方法进行参数估计,结合MCMC方法进行统计推断。令γ的先验分布为条件拉普拉斯分布,以后验分布的中位数作为其点估计值,并通过置信区间准则,将50%置信区间包含0的γ压缩为0。压缩后非零的γ为离群值。3、通过模拟研究对所构建的模型进行理论测评。利用R、M与S三个指标分别评价所构建的离群模型离群值检测的正确率、掩盖效应以及淹没效应;待估参数的估计效果利用估计值的均值、标准差以及均方误来评价;通过比较构建的离群模型与传统的参数生存模型的参数估计结果来全面的评价所构建的离群模型的离群值检测的效果及参数估计效果。4、对肝癌与乳腺癌的实例数据分别拟合所构建的离群模型与传统的参数生存模型,通过比较其参数估计结果评价离群模型的总体效果。通过残差图和DIC准则来比较不同模型的拟合效果。通过MC误、时序轨迹图和GR统计量走势图来判断MCMC方法的收敛性。利用所构建的离群模型检测实例数据中是否含有离群值,并分析肝癌、乳腺癌术后复发转移的影响因素。结果1、本研究构建了生存时间服从参数为λ的指数分布的离群模型,其形式为λ= exp(X’β + γ),其似然函数的形式为:∏i=1n[exp(Xi’β+γi)exp(-λexp(Xi’β+γi))]δi×[exp(-exp(Xi’β+γi)Yi)]1-δi.令β服从相互独立的平坦正态先验分布,γ服从条件拉普拉斯先验分布,其超参数的超先验分布分别为逆伽马分布与伽马分布,则待估参数的后验分布为:P(β,γ|y,x,δ)(?)L(β,γ|y,x,δ)×π(β)×π(γ).2、本研究构建了生存时间服从参数为λ、ω的两参数威布尔分布的离群模型,其形式为λ= exp(X’β+γ),其似然函数的形式为:∏i=1n[ωexp(Ci’β+γi)yiω-1exp(-λexωp(Xi’β+γi)yiω-1)]δi×[exp(-exp(Xi’β+γi)yiω)]1-δi.令ω服从平坦的伽马先验分布,β服从相互独立的平坦正态先验分布,γ服从条件拉普拉斯先验分布,其超参数的超先验分布分别为逆伽马分布与伽马分布,则待估参数的后验分布为:P(β,γ|y,x,δ)(?)L(β,γ|y,x,δ)×π(β)×π(γ)×π(ω).3、模拟测评结果显示指数回归离群模型与威布尔回归离群模型的R均在96%以上,整体离群值检测正确率较高,M与S均在2%到4%之间小幅波动,掩盖效应与淹没效应比例均较低。不同情况下的模拟结果显示离群模型对数据的删失率均不敏感,数据中离群值比例的增加会略微影响该模型离群值识别的正确率。参数估计的结果显示离群模型回归系数的估计值十分接近真值,且标准差与均方误均较小。删去模型识别出的离群值后模型的参数估计值变化不大,说明本文构建的离群模型参数估计结果较为稳健。4、肝癌数据的实例研究结果显示直接拟合指数回归模型时拟合效果最差。而指数回归离群模型的拟合效果最好,其DIC值最小。对全部数据与对“干净”数据拟合离群模型的结果十分相近。指数回归离群模型的结果显示该数据中包含有10.88%的离群值,回归系数的估计结果显示肝癌术后复发转移的保护因素有术后服用试验药物进行辅助治疗(-1.13,95%CI:-1.371~-0.886)、女性(-1.17,95%CI:-1.617~-0.738)及完整的肿瘤包膜(-0.70,95%CI:-1.040~-0.381),而危险因素有手术时的年龄(0.04,95%CI:0.033~0.054)、术前AFP水平(0.10,95%CI:0.026~0.178)、肿瘤数目(0.86,95%CI:0.438~1.292)、肿瘤大小(0.17,95%CI:0.010~0.332)、肿瘤细胞病理分级(0.36,95%CI:0.176~0.550)。5、乳腺癌数据的实例研究结果显示直接拟合威布尔回归模型拟合效果最差,而威布尔回归离群模型的拟合效果最好,其DIC值最小。对全部数据与对“干净”数据拟合离群模型的结果十分相近。威布尔回归离群模型的结果显示该数据中包含有19.01%的离群值,形状参数的估计值为1.32(95%CI:1.213,1.430)。回归系数的估计结果显示乳腺癌术后复发转移的保护因素有诊断时的年龄(-0.28,95%CI:-0.431~-0.122)、肿瘤细胞分化程度高(-0.77,95%CI:-0.935~-0.607)、孕激素受体数目阳性(-1.48,95%CI:-1.741~-1.232)以及雌激素受体数目阳性(-0.42,95%CI:-0.668~-0.169),危险因素为淋巴结转移数目(0.59,95%CI:0.447~0.735)。结论生存资料中的离群值有可能包含了与疾病预后相关的目前尚未被发现的新信息。通过本研究所构建的离群模型能够同时实现离群值的检测与疾病预后相关因素的分析两个目的。
其他文献
首先介绍了A429-PC104板卡的体系结构,并对其各功能模块进行了说明;然后介绍了VxWorks下设备驱动程序的工作原理和编写方法,描述了VxWorksI/O系统、应用程序以及设备驱动程序
随着社会的发展,教师专业能力的发展已引起越来越多人的广泛关注,教师教学反思能力的提高是最重要的价值,受到教育专家、学者的重视、研究和实践。当前对教学反思的研究比较
命名活动是一项语言的、社会的基本活动,命名相应地有这两种分类。命名句是汉语命名中所特有的,命名句不是句子而是名称,但保持了句子的述谓形式。命名具有移动性,是语言系统
本文的研究重点是有机发光二极管和聚合物太阳电池中阴极界面修饰及界面物理的研究。主要包括以下两方面内容:1、利用碱金属盐LiF、NaF、CsF、Cs2CO3作为阴极界面修饰材料,制备
本文结合克拉玛依石化厂实际情况,从安全性、经济性出发,叙述建立适合现代企业设备管理维修的动设备振动故障诊断相对标准的方法,以及相时标准应用效果。 Based on the actu
今年3月5日是毛泽东“向雷锋同志学习”题词发表40周年的纪念日。本着大力弘扬雷锋精神、研讨雷锋精神的时代价值的宗旨,3月18日,本刊编辑部与清华大学高校德育研究中心在京
流水线模数转换器(ADC)在速度、精度和功耗上优越的折衷使其在通信、消费电子和医疗电子等现代科技应用中起到了重要的作用。增益数模单元(MDAC)和子模数转换单元(Sub-ADC)电路
词汇的歧义性是自然语言的固有特征,词义消歧作为自然语言处理的一个基础任务,其结果对信息检索、机器翻译和信息抽取等上层任务具有直接影响。通过大规模语料训练的词向量包
胃癌是全世界最常见的恶性肿瘤之一,居各种肿瘤死因的第二位,在全球肿瘤发病率中列第四。近年来,胃癌在我国发病率仍居所有肿瘤的第二位,发病人数约占全球发病总人数的1/3,我
<正> 在科学家族中,心理学占据着关键的地位。它在不同程度上依赖着其他学科,又以清晰的方式阐明其他学科。心理学与生物学心理(?)和生物学有特别显著的相互交流关系。心理学