论文部分内容阅读
随着测序和各种技术的飞速发展,在生物学领域产生越来越多的单核苷酸突变包括同义突变,但同义突变在很大程度上没有被特别研究,因为它们没有改变蛋白质序列。迄今为止,越来越多的证据表明同义突变可能影响生物体不同方面从而导致各种疾病发生。准确快速的从大量的中性突变中识别出有害同义突变,可以显著提高我们从各种基因组测序中鉴定出功能性突变的能力,并推动人类对疾病病因的理解。而通过生物信息学方法构建的相关预测工具,可以帮助我们快速识别出这些潜在的有害同义突变。 本文根据目前已经报道的人类基因组上有害同义突变,深入了解了它们的致病机制,包括突变位点的进化保守性,剪切位点的改变,同义密码子的选择使用,突变所在的序列的变化,RNA稳定性变化,翻译效率增加或降低等。这些同义突变的致病机制,一方面可以作为构建模型时候的特征,另一方面也能为相关疾病诊断与治疗提供新视角。 目前对同义突变的有害性预测研究并不多,同时这些已开发的方法存在一些不足,如构建模型的样本过小,特征考虑不全面等。为了解决这个问题,本文构建了一个基于特征的方法IDSV(Identification of Deleterious Synonymous Variants)来识别人类基因组中有害同义突变。我们首先从人类有害同义突变数据库(dbDSM),VariSNP和ClinVar中获取可靠的同义突变数据,量化了7个类别共74个特征:剪切,保守性,密码子使用,序列,前体mRNA折叠能,翻译效率和功能区域注释特征。然后,为了去除冗余和不相关的特征并提高预测性能,使用序列后向选择方法进行特征选择。基于特征选择后的10个特征,使用随机森林分类器构建了识别人类基因组中有害同义突变的IDSV工具,工具可在http://bioinfo.ahu.edu.cn:8080/IDSV/上获得。结果表明,本文提出的方法在识别有害性同义突变方面优于其他方法。另外实验结果显示除了突变位点保守性和剪切特征外,新添加的翻译效率特征在识别有害同义突变时也具有重要作用。虽然功能区域注释和序列特征的贡献度较小,但它们可以在与其它特征组合时提高预测准确性。最后本文通过不同实验,证明了训练集中中性同义突变样本的来源和大小对预测性能影响不大,这也进一步说明了该模型的鲁棒性较强。 然后本文分析讨论了目前相关预测工具存在的一些不足,构建一个用于预测同义突变有害性的集成方法SVEL(Synonymous Variants Ensembl Learning)。SVEL方法将目前开发的可用于同义突变预测的6个工具(SilVA,TraP,PhD-SNPg,FATHMM-MKL,FATHMM-XF和DANN)的预测结果作为特征值,另外我们还添加了13个剪切和保守性特征。然后用随机森林算法训练了来源于DDIG-SN方法用到的训练集,为了避免重复训练,我们去掉了该训练集中用于训练上述6个工具的所有突变。相较单个工具SVEL表现出较高的预测准确性,并且在正负样本预测上没有显著偏向性。同时将SVEL与IDSV进行了比较,发现SVEL在预测性能上有一定改进。为了使我们的方法易于研究者和临床诊断使用,我们将预计算出人类基因组上目前所有的同义突变SVEL得分。 相较其他有害同义突变预测工具,我们构建的两个工具都具有较好的预测性能,这为我们从大量突变数据中寻找真正有害突变提供便利。在线或本地化的预测工具构建也有利于研究者广泛使用,从而帮助我们对同义突变相关疾病的预防与治疗。