基于序列特征的环状RNA识别

来源 :东南大学 | 被引量 : 0次 | 上传用户:llljjjxxx7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,环状RNA因其独特的环状结构以及重要的生物学功能受到广泛关注。现有的环状RNA识别工具依赖高通量测序数据,因数据本身和识别方式的弊端而普遍存在准确性不足、不同方法间重复性低以及假阳性率/假阴性率高等缺点。因此,如何根据序列的内在特征来实现不依赖于测序数据的环状RNA从头预测就显得尤为重要。本研究选取了环状RNA剪接位点上下游侧翼内含子中A-to-I RNA编辑位点、Alu重复序列、RNA结合蛋白(RBP)结合位点分布、序列组分特征等多种与RNA成环相关的序列特征。本论文首先设计流程分析这些特征的分布特点,发现环状RNA的这些特征与线性编码RNA存在显著差异。随后,结合随机森林(RF)和支持向量机(SVM)两种机器学习方法建立分类模型,用于识别人类环状RNA。同时,论文对特征的重要性进行排序,发现部分特征可以显著影响分类效果。最后,论文尝试了不同的特征提取方式和特征类型,比较其分类效果。本论文获得的主要结果包括:(1)研究RBP对于环状RNA产生的调控作用。结果显示,在反向剪接位点附近的首末端外显子及侧翼内含子上有RBP结合位点的显著富集。通过对RBP进行基因本体(GO)功能注释及RBP结合位点的分布排序,发现分布最广泛的RBP大多与剪接功能相关。对环状RNA及线性RNA上剪接功能相关RBP结合位点的比较,发现在剪接位点附近两者存在显著差异。(2)针对环状RNA与线性编码RNA,本论文整合多种生物信息学工具,并设计流程计算包括剪接位点上下游侧翼内含子上的A-to-I RNA编辑位点、Alu重复序列、RBP结合位点分布以及序列组分等多种与RNA成环相关的序列特征。结果显示,以上序列特征在环状RNA与线性编码RNA间存在显著差异,且Alu重复序列分布常伴随长侧翼内含子。(3)将处理后的序列特征结合SVM、RF两种机器学习算法,建立机器学习分类模型,用于环状RNA的识别。结果显示,基于序列特征的环状RNA分类模型准确性好、灵敏度高。对序列特征进行重要性排序,并在模型训练中依序加入特征值,发现高权重特征对模型训练效果作用显著。随后,论文比较了我们选取的特征与基于热力学方法选取的特征对于环状RNA分类的区别。使用相同的机器学习方法,结果显示基于热力学特征的分类模型对环状RNA的识别能力要低于我们所开发的基于序列特征的分类模型的识别能力。
其他文献
新中国成立60年以来,与东南亚关系经历了复杂的和巨大的变化。以1990年代初冷战结束为界,中国与东南亚的关系大致上可以分为冷战时期和冷战后时期,冷战时期可分为五个阶段,冷
在今后的区域竞争中,辽宁老工业基地应主要依靠自主创新推动经济增长。因此,辽宁老工业基地自主创新必须和提高区域竞争力相结合,和主导产业形成核心竞争力相结合,和强化企业
为探究连翘酯苷A抑制LPS协同诱导大鼠类风湿性关节炎机制,将40只SD大鼠[体重(120±2)g],随机分成4组,每组10只,分别记为对照组、类风湿性关节炎组、LPS刺激类风湿性关节炎组
移动通信是20世纪经济、能源、交通运输与通信技术高速发展相结合的产物。在20世纪的最后十年,移动通信特别是数字移动通信发展之快和应用之广,大大超出了人们的预料和专家的预
目的:探讨慢性肾脏病(CKD)1~4期患者血清1,25(OH)2D水平与蛋白尿、尿炎症细胞因子的关系。方法:对我科115例CKD1~4期患者及20例健康对照者进行血清1,25(OH)2D、血CRP,尿TGF-β1
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测
<正>2014年第十三届中学生古诗文阅读大赛初二、初三组决赛试题杜牧《题宣州开元寺水阁》首联为"六朝文物草连空,天淡云闲今古同",其中"六朝"指的是三国(吴)、东晋、____、__
期刊
5月3日,700多个快递机器人穿梭在仓库内,组成了义乌申通快递智能机器人分拣系统。这些机器人外观近似扫地机器人,顶部有一个活动托盘用来运载包裹。快递机器人主要针对重量在5公
2008年"3·14事件"促使一些学者开始反思和深入探讨国外非政府组织在对外文化交流、推动外部世界认识和了解中国、从而塑造国家"软实力"方面的地位和作用。而欧洲国家很早就
现实建构主义作为融合现实主义和建构主义的搭桥理论,对权力结构及规范或观念结构两大核心变量都极其重要。考察印美关系的趋暖,既要考虑权力结构因素,也须结合身份(认同)等