论文部分内容阅读
RNA的转录后修饰在生命体中普遍存在,并且在许多生物过程中扮演了重要的角色,而RNA的甲基化修饰则是RNA转录后修饰中一个重要的分支。RNA甲基化是指在RNA的某些核苷酸分子上发生甲基化修饰的现象,常见的包括N6-甲基腺苷、N1-甲基腺苷等。近年来的研究表明,RNA甲基化修饰可以影响RNA的转录、代谢、剪接和稳定性;能与相关的蛋白质结合,从而调控基因的表达。并且,RNA甲基化修饰与肿瘤、肥胖症等疾病也有所关联。因此,从RNA序列中精确地识别出RNA甲基化修饰位点是一项重要的任务。传统的基于物理化学实验来识别RNA甲基化位点的方法成本高、耗时长且规模较小。近年来出现的高通量测序方法能进行高效的、大规模的RNA甲基化位点识别,但其本质仍然是基于生物化学实验的方法。因此,设计一种基于机器学习理论的RNA甲基化修饰位点预测方法,是十分必要的。本文对基于序列的RNA甲基化修饰位点预测问题进行了深入研究,主要工作如下:(1)研究了 RNA的基本性质,并提出了一种新的RNA序列的特征提取方法。位置特异性偏好思想在蛋白质修饰位点预测问题中得到了成功的应用。受此启发,本文将位置特异性偏好思想应用于RNA序列,提出了位置特异性核苷酸/二核苷酸偏好特征,用于RNA序列的特征提取。该思想利用统计方法,分别计算每种核苷酸在正负样本集合的序列中每个位置的出现频率,并且利用正负样本集合之间的差异进行特征编码。实验结果表明,该特征提取方法能进一步地提升N6-甲基腺苷位点预测的精度。(2)对基于序列的N6-甲基腺苷位点预测问题进行了研究,并提出了名为TargetM6A的预测方法。TargetM6A方法利用所提出的位置特异性核苷酸/二核苷酸偏好特征,并结合传统的核苷酸组成成分特征,来对RNA序列进行特征提取;对提取出的特征使用增量特征选择方法进行特征筛选,选出更有判别力的特征成分子集;最终使用支持向量机算法训练预测模型。实验结果表明,相对于现有的基于序列的N6-甲基腺苷位点预测方法,本文提出的TargetM6A方法在基准数据集上取得了更好的预测结果。(3)对基于序列的N1-甲基腺苷位点预测问题进行了研究,并提出了名为TargetM1A的预测方法。针对最近新发布的N1-甲基腺苷实验数据,进行了数据的处理和采样,构建了 3个基于物种和6个基于组织细胞的N1-甲基腺苷位点的数据集。TargetM1A方法提取了数种基于RNA序列的特征,并使用极限随机树算法作为分类器。TargetM1A方法在基于物种和基于组织细胞的预测模型的交叉验证实验中都取得了不错的性能;它对于现有的基于实验来研究N1-甲基腺苷位点的方法来说,是一个有益的补充工具。(4)对于所提出的TargetM6A和TargetM1A方法都提供了在线的预测服务,供其他研究人员免费地使用。