论文部分内容阅读
随着生存分析研究工作的不断深入,许多研究者发现即使临床因素相似的患者预后也会存在较大的差异。因此越来越多的研究者开始将目光转移到研究遗传因素对疾病预后的影响。随着高通量技术的快速发展和相关实验成本的降低,使得基因组学相关的数据急剧增加。该类型的研究数据表现为:预测变量的个数p远大于研究的观察对象个数n(p>>n)。传统的单变量Cox回归分析,多重比较校正后,检验效能很低:同时该类型数据内部结构复杂,因此不再适用。基因组学高维数据中,绝大部分的预测变量是没有生物学意义的,仅有小部分的预测变量与结局变量存在紧密关联。因此统计学家们提出一个新颖的分析思路:先降维去噪,再进行后续的分析。随机森林法是目前常用的处理高维数据的机器学习法之一。该方法无需事先指定参数的分布特征,并且可以评价每个预测变量对结局的预测能力;同时利用内部交叉验证评价其预测错误率并能够保证有较高的准确性。因其表现突出,不断地被应用于高维数据的研究分析中。随机生存森林是随机森林的发展,适用于右截尾的生存资料。本研究利用模拟数据和实例分析重点考察随机生存森林在高维基因分型相关的生存资料中筛检有主效应位点的能力。模拟试验分三个部分:分别设置模拟数据中只有一个风险位点、两个风险位点和五个风险位点的三种情况。考察位点间存在的连锁不平衡强度(分为0.0~0.2,0.2~0.4,04~0.6,06~0.8几个等级),以及位点的风险比(HR=1.2,1.4,1.6,1.8,2.0),对随机生存森林的筛选结果有何影响,从而为实际数据分析过程提供指导建议。主要结果:1.随着HR的增加,风险位点的重要性评分(VIMP)越高,1000次随机生存森林中,按照平均的VIMP大小排序,排在前几位的比例也随之增加。2.在两个风险位点的模型中,随着nax r2的增加,风险位点的重要性评分减小,根据平均VIMP排序,两个位点都排在前四位的比例也随之减小,最低为70.6%。当两个位点HR都为1.4时,即使存在较高的LD,两个位点都排在前四位的比例至少占到89.0%。3.在多个风险位点的模型中(本研究选择5个位点为例),当选取与其他位点连锁不平衡较弱的位点作为风险位点时,五个位点都排在前7位的比例高达92.5%;当选取的风险位点与其他位点存在不同程度的连锁不平衡时,五个位点都排在前7位的比例为80.6%。4.实例分析:利用随机生存森林法对120位肺癌患者399个SNPs进行降维分析,随机生存森林筛选出25个重要的SNPs,控制临床协变量(临床分期,是否手术,组织病理学)的多元Cox比例风险模型显示有4个位点有统计学意义。交叉验证结果表明,该模型的平均准确度达83.63%。结论位点的主效应越强,随机生存森林法的重要性评分也就越高。与风险位点高度连锁不平衡的非风险位点的重要性评分也会略有增加,同时会导致风险位点的重要性评分减小,风险位点按重要性评分排序后,排在前面的概率会略有下降,随机生存森林选择风险位点的准确性也就有所下降,降维能力减弱。因此,在使用RSF筛选变量时,可以适当多保留一些前几位的位点,为进一步分析用。总之,对高维生存资料利用随机生存森林法先降维去噪,再作进一步分析的思路,能够有效地提高随机生存森林的降维能力,从而提高后续分析的检验效能,有助于预后预测模型的建立。