论文部分内容阅读
RNA甲基化修饰是指在RNA序列的不同位置产生转录后修饰的现象,目前已经被发现甲基化修饰达到150多种,其中最为常见的两种分别是5-甲基胞嘧啶(5-methylcytosine,m~5C)和6-甲基腺嘌呤(N~6-methyladenosine,m~6A)。上述两种常见的修饰位点不仅对酵母菌细胞的命运起到重要的作用,还对人类,动物的胚胎发育具有一定的调控作用。因此从RNA序列中精确识别m~5C位点和m~6A位点对于深入了解两种修饰位点的机制和功能十分有益。由于使用湿实验技术鉴别甲基化位点需要面临众多困难和昂贵的成本,因此迫切需要开发一种基于机器学习的,并能够快速准确预测甲基化位点的方法。在本文中,为了进一步提高甲基化位点预测模型的性能,主要做了以下工作:(1)设计一种基于核酸物化学属性冗余度度量的K重启发式约简(Heuristic Physical-Chemical Reduction,HPCR)算法,通过使用该约简算法获得K组物化属性约简子集来重新编码RNA样本,并结合支持向量机(Support vector machine,SVM)训练获得K个基分类器,然后通过使用分类器集成算法构建最终的甲基化位点预测器;最后,在两种基准数据集上分别采用Jackknife测试法进行验证。最终实验结果表明,基于该算法所构建的预测器优于目前最优的甲基化位点预测器。在m~6A数据集上,Mcc和AUC的预测精度分别达到了0.454和0.784。在m~5C数据集上,Mcc和AUC的预测精度分别达到了0.859和0.962。(2)设计基于统计方法的特征编码方法和分类器集成算法,通过使用该算法对RNA样本采用三种特征编码方式,并结合SVM训练获得三个基分类器,再通过使用分类器集成算法构建最终的甲基化位点预测器;最后,在两种基准数据集上分别采用Jackknife测试法进行验证。最终实验结果表明,基于该算法所构建的预测器优于目前最优的甲基化位点预测器。在m~6A数据集上,Mcc和AUC的预测精度分别达到了0.542和0.829。在m~5C数据集上,Mcc和AUC的预测精度分别达到了0.95和0.992。(3)为了便于其他研究人员的使用,本文还设计实现了甲基化位点在线预测网站。