论文部分内容阅读
近年来,环状RNA因其独特的环状结构以及重要的生物学功能受到广泛关注。现有的环状RNA识别工具依赖高通量测序数据,因数据本身和识别方式的弊端而普遍存在准确性不足、不同方法间重复性低以及假阳性率/假阴性率高等缺点。因此,如何根据序列的内在特征来实现不依赖于测序数据的环状RNA从头预测就显得尤为重要。本研究选取了环状RNA剪接位点上下游侧翼内含子中A-to-I RNA编辑位点、Alu重复序列、RNA结合蛋白(RBP)结合位点分布、序列组分特征等多种与RNA成环相关的序列特征。本论文首先设计流程分析这些特征的分布特点,发现环状RNA的这些特征与线性编码RNA存在显著差异。随后,结合随机森林(RF)和支持向量机(SVM)两种机器学习方法建立分类模型,用于识别人类环状RNA。同时,论文对特征的重要性进行排序,发现部分特征可以显著影响分类效果。最后,论文尝试了不同的特征提取方式和特征类型,比较其分类效果。本论文获得的主要结果包括:(1)研究RBP对于环状RNA产生的调控作用。结果显示,在反向剪接位点附近的首末端外显子及侧翼内含子上有RBP结合位点的显著富集。通过对RBP进行基因本体(GO)功能注释及RBP结合位点的分布排序,发现分布最广泛的RBP大多与剪接功能相关。对环状RNA及线性RNA上剪接功能相关RBP结合位点的比较,发现在剪接位点附近两者存在显著差异。(2)针对环状RNA与线性编码RNA,本论文整合多种生物信息学工具,并设计流程计算包括剪接位点上下游侧翼内含子上的A-to-I RNA编辑位点、Alu重复序列、RBP结合位点分布以及序列组分等多种与RNA成环相关的序列特征。结果显示,以上序列特征在环状RNA与线性编码RNA间存在显著差异,且Alu重复序列分布常伴随长侧翼内含子。(3)将处理后的序列特征结合SVM、RF两种机器学习算法,建立机器学习分类模型,用于环状RNA的识别。结果显示,基于序列特征的环状RNA分类模型准确性好、灵敏度高。对序列特征进行重要性排序,并在模型训练中依序加入特征值,发现高权重特征对模型训练效果作用显著。随后,论文比较了我们选取的特征与基于热力学方法选取的特征对于环状RNA分类的区别。使用相同的机器学习方法,结果显示基于热力学特征的分类模型对环状RNA的识别能力要低于我们所开发的基于序列特征的分类模型的识别能力。