论文部分内容阅读
RNA转录后修饰是对转录后的RNA进行加工的过程,在许多生命过程中发挥着重要作用。目前鉴定到的已有150余种转录后修饰,其中N6-甲基腺苷(N6-methyladenosine,m~6A)是RNA转录后修饰中最为常见的一类,其广泛地存在于哺乳动物,酿酒酵母和拟南芥等物种中。M~6A是一种可逆修饰,其调节着RNA的定位、转录、剪接和稳定性。此外其与肿瘤、肥胖症等疾病具有关联。因此,从RNA序列中精准地鉴定出m~6A修饰位点,对基础研究和药物开发有着重大意义,是一项非常有意义的工作。传统的基于生化实验来识别m~6A修饰位点的方法不仅耗时长、成本高,而且规模较小。近年来,研究人员开发出了多个基于机器学习的m~6A修饰位点预测器,但是其都是面向单一物种且预测精度有限。因此,设计一种高精度的跨物种m~6A修饰位点预测模型,是非常有必要的。本文对m~6A修饰位点预测问题进行了研究,主要工作如下:(1)对基于RNA序列的m~6A修饰位点预测问题进行研究,提出一种新型的RNA序列特征提取方法,即改进的核苷酸组成成分(Enhanced Nucleic Acid Composition,ENAC)。该方法利用滑动窗口的思想,分别计算滑动窗口中每种核苷酸出现的频率。此方法融合了序列的局部信息和全局信息,能够更好地表达修饰位点周围RNA序列的特征。基于此特征提取方法,构建了随机森林预测模型。实验结果表明,与常见的RNA序列特征提取方法相比,该方法能有效提高N6-甲基腺苷位点的预测性能。(2)将深度学习应用于m~6A修饰位点预测,提出了基于单向门控循环单元(Unidirectional GRU-based RNN predictor,UGRU)和双向门控循环单元(Bidirectional Gated Recurrent Unit,BGRU)的m~6A修饰位点预测模型。实验结果表明,BGRU预测模型在多物种上具有更好的预测结果。(3)通过逻辑回归的方法,融合基于深度学习的BGRU预测模型和基于ENAC方法的随机森林预测模型,构建了一个高精度的跨物种m~6A修饰位点预测模型,BERMP方法。实验结果表明,在多个物种上,本文提出的BERMP方法在相同独立测试集上的预测性能都要优于现有的单物种m~6A修饰位点预测方法。(4)对提出的BERMP方法提供了在线的预测服务平台,以便相关研究人员免费地使用(http://www.bioinfogo.org/bermp/)。