论文部分内容阅读
目的:本文通过模拟研究比较基于non-local先验的贝叶斯变量选择方法、ISIS-SCAD、ISIS-MCP在极高维数据分析中的表现,并将其应用到弥漫性大B细胞淋巴瘤(DLBCL,diffuse large B cell lymphoma)基因表达数据中,找出与DLBCL分型有关的基因,为临床上DLBCL的诊断和治疗提供依据。方法:介绍基于non-local先验的贝叶斯变量选择方法—乘积逆矩先验(piMOM,product inverse moment)的基本原理,并将其与ISIS-SCAD、ISIS-MCP方法应用到二分类logistic回归中。模拟研究中,根据协方差结构的不同将协变量间相关程度分为三种情况:相互独立、复合对称相关、自回归相关;样本量n=50、100、200、400、600;自变量维数p=1000、3000,从模型相合性和模型预测准确性两个方面,评价不同极高维情况下三种变量选择方法的表现。实例分析中,将包含350个病人,3237个基因的DLBCL数据分为训练集(n=245)和测试集(n=105),分别运用piMOM、ISIS-SCAD、ISIS-MCP方法进行建模并验证,用AUC评价三种模型的优劣。结果:模拟研究发现:在p=1000和p=3000情况下,三种方法筛出的变量平均真阳性数大致相等,ISIS-SCAD、ISIS-MCP方法的平均假阳性数和预测均方误差、回归系数均方误差却明显高于non-local先验方法,且non-local先验方法随着维数的增加波动较小,较ISIS-SCAD、ISIS-MCP方法稳定。DLBCL基因表达数据经piMOM分析发现4个有意义的基因(MYBL1,CYB5R2,MAML3,BTLA),AUC为0.989;ISIS-SCAD发现7个有意义的基因(MYBL1,CYB5R2,MAML3,TNFRSF13B,S1PR2,SLC25A27,GAB1),AUC为0.981;ISIS-MCP发现5个有意义的基因(MYBL1,CYB5R2,MAML3,CHST2,SUB1),AUC为0.962。三种方法均筛出的基因为:MYBL1,CYB5R2,MAML3。结论:基于non-local先验的贝叶斯变量选择方法在模型选择和预测准确性方面优于传统的惩罚类方法,在一定程度上可以较好地控制假阳性率。MYBL1,BTLA,CYB5R2,MAML3可能与DLBCL分型有关。