论文部分内容阅读
癌症作为一种人类复杂遗传疾病,一般是由基因组上不断累积的大量突变所导致。在众多突变中,仅有一小部分突变对于癌症的发生发展起到关键作用,这些突变被称为驱动突变。驱动突变的发生会显著改变正常细胞的分子运行系统,并且刺激肿瘤细胞的生长。由于癌症基因组的不稳定性,通常驱动突变的发生会伴随着大量的乘客突变,这些乘客突变一般不会参与癌症的发生发展以及治疗等过程。考虑到驱动突变是作为癌症的诊断和预后的分子标志,并且是癌症相关药物的研发或者作用的靶标,所以从癌症基因组上众多的突变中识别出驱动突变是非常重要的。错义突变是基因组上数量最多的一种突变,目前已有多种策略用于预测癌症驱动错义突变。第一种策略是通过传统生物学实验方法鉴定驱动突变,但是比较耗时耗力,难以处理和挖掘众多测序项目产生的海量突变数据。第二种策略是通过统计学方法发现驱动突变,但是需要较大数量级的癌症样本,一般难以获取到。最后一种策略是基于序列位点保守性,蛋白质结构与功能等特征开发相关算法,预测对癌症发生发展有功能影响的驱动突变。目前已经有很多算法用于预测癌症驱动错义突变,这些预测算法有着不同的设计特点。已有的关于癌症驱动错义突变预测算法评估性研究工作指出不同类别预测算法存在着预测偏向性问题,并提出了集成不同预测工具的解决方案,但是没有对造成不同预测工具预测偏向性的原因进行深层次地分析。通过标准测试集(癌症相关、有代表性、非冗余)上的实验结果,本文参照模型的设计方法系统地对不同类别的突变预测工具的预测性能进行了评估和分析。根据评估结果,构建了基于高质量负样本的癌症驱动错义突变预测模型。本文的主要工作如下。1.分析比较了现有错义驱动突变预测工具,在多套标准测试集的预测结果表明,癌症特异性突变预测工具比广谱性疾病突变预测工具对负样本预测性能较差。本文共获取34种错义驱动突变预测工具(包括5种保守性分数预测方法),基于6套标准测试集对这些突变预测工具的预测性能进行了比较分析。根据对癌症特异性突变预测工具和广谱性疾病突变预测工具的评估,癌症特异性突变预测工具相比广谱性疾病突变预测工具表现了较低的综合预测能力,主要原因是其对负样本的预测能力较差,有待提升。2.提出了一种基于高质量负样本数据集的驱动错义突变预测方法,建立了驱动错义突变预测模型CMMPred(Cancer Missense Mutation Predictor)。训练集的正样本和负样本分别来源于COSMIC和dbCPM数据库。借助CRAVAT工具,本文为所有样本编码生成85维特征,并基于XGBoost算法建立了CMMpred模型。在独立测试集上,CMMPred的AUC、Sensitivity和Specificity分别为0.77、0.75和0.66,比紧随其后的PolyPhen2工具在AUC上高出7个百分点,表现了比其他所有工具更好的综合预测能力。实验结果说明经过人工注释的高质量乘客突变有效提升了癌症驱动错义突变预测性能。