论文部分内容阅读
目的本文拟构建考虑生存数据中离群值问题的参数生存模型,利用Bayes方法对模型进行参数估计与统计推断,以期进一步深入、系统地补充或完善生存分析中离群值检测的方法,使生存资料能够得到更加充分的挖掘与利用,为我们全面了解疾病的发生与发展提供方法学支持。方法1、在传统的指数回归模型与威布尔回归模型中加入一个n维的漂移向量γ作为离群值指示变量来构建参数生存离群模型。2、采用Bayes方法进行参数估计,结合MCMC方法进行统计推断。令γ的先验分布为条件拉普拉斯分布,以后验分布的中位数作为其点估计值,并通过置信区间准则,将50%置信区间包含0的γ压缩为0。压缩后非零的γ为离群值。3、通过模拟研究对所构建的模型进行理论测评。利用R、M与S三个指标分别评价所构建的离群模型离群值检测的正确率、掩盖效应以及淹没效应;待估参数的估计效果利用估计值的均值、标准差以及均方误来评价;通过比较构建的离群模型与传统的参数生存模型的参数估计结果来全面的评价所构建的离群模型的离群值检测的效果及参数估计效果。4、对肝癌与乳腺癌的实例数据分别拟合所构建的离群模型与传统的参数生存模型,通过比较其参数估计结果评价离群模型的总体效果。通过残差图和DIC准则来比较不同模型的拟合效果。通过MC误、时序轨迹图和GR统计量走势图来判断MCMC方法的收敛性。利用所构建的离群模型检测实例数据中是否含有离群值,并分析肝癌、乳腺癌术后复发转移的影响因素。结果1、本研究构建了生存时间服从参数为λ的指数分布的离群模型,其形式为λ= exp(X’β + γ),其似然函数的形式为:∏i=1n[exp(Xi’β+γi)exp(-λexp(Xi’β+γi))]δi×[exp(-exp(Xi’β+γi)Yi)]1-δi.令β服从相互独立的平坦正态先验分布,γ服从条件拉普拉斯先验分布,其超参数的超先验分布分别为逆伽马分布与伽马分布,则待估参数的后验分布为:P(β,γ|y,x,δ)(?)L(β,γ|y,x,δ)×π(β)×π(γ).2、本研究构建了生存时间服从参数为λ、ω的两参数威布尔分布的离群模型,其形式为λ= exp(X’β+γ),其似然函数的形式为:∏i=1n[ωexp(Ci’β+γi)yiω-1exp(-λexωp(Xi’β+γi)yiω-1)]δi×[exp(-exp(Xi’β+γi)yiω)]1-δi.令ω服从平坦的伽马先验分布,β服从相互独立的平坦正态先验分布,γ服从条件拉普拉斯先验分布,其超参数的超先验分布分别为逆伽马分布与伽马分布,则待估参数的后验分布为:P(β,γ|y,x,δ)(?)L(β,γ|y,x,δ)×π(β)×π(γ)×π(ω).3、模拟测评结果显示指数回归离群模型与威布尔回归离群模型的R均在96%以上,整体离群值检测正确率较高,M与S均在2%到4%之间小幅波动,掩盖效应与淹没效应比例均较低。不同情况下的模拟结果显示离群模型对数据的删失率均不敏感,数据中离群值比例的增加会略微影响该模型离群值识别的正确率。参数估计的结果显示离群模型回归系数的估计值十分接近真值,且标准差与均方误均较小。删去模型识别出的离群值后模型的参数估计值变化不大,说明本文构建的离群模型参数估计结果较为稳健。4、肝癌数据的实例研究结果显示直接拟合指数回归模型时拟合效果最差。而指数回归离群模型的拟合效果最好,其DIC值最小。对全部数据与对“干净”数据拟合离群模型的结果十分相近。指数回归离群模型的结果显示该数据中包含有10.88%的离群值,回归系数的估计结果显示肝癌术后复发转移的保护因素有术后服用试验药物进行辅助治疗(-1.13,95%CI:-1.371~-0.886)、女性(-1.17,95%CI:-1.617~-0.738)及完整的肿瘤包膜(-0.70,95%CI:-1.040~-0.381),而危险因素有手术时的年龄(0.04,95%CI:0.033~0.054)、术前AFP水平(0.10,95%CI:0.026~0.178)、肿瘤数目(0.86,95%CI:0.438~1.292)、肿瘤大小(0.17,95%CI:0.010~0.332)、肿瘤细胞病理分级(0.36,95%CI:0.176~0.550)。5、乳腺癌数据的实例研究结果显示直接拟合威布尔回归模型拟合效果最差,而威布尔回归离群模型的拟合效果最好,其DIC值最小。对全部数据与对“干净”数据拟合离群模型的结果十分相近。威布尔回归离群模型的结果显示该数据中包含有19.01%的离群值,形状参数的估计值为1.32(95%CI:1.213,1.430)。回归系数的估计结果显示乳腺癌术后复发转移的保护因素有诊断时的年龄(-0.28,95%CI:-0.431~-0.122)、肿瘤细胞分化程度高(-0.77,95%CI:-0.935~-0.607)、孕激素受体数目阳性(-1.48,95%CI:-1.741~-1.232)以及雌激素受体数目阳性(-0.42,95%CI:-0.668~-0.169),危险因素为淋巴结转移数目(0.59,95%CI:0.447~0.735)。结论生存资料中的离群值有可能包含了与疾病预后相关的目前尚未被发现的新信息。通过本研究所构建的离群模型能够同时实现离群值的检测与疾病预后相关因素的分析两个目的。