基于多特征的长非编码RNA识别方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:meyxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类基因组中能够转录编码蛋白质的区域大约占基因组总长度的2-5%,近些年来对转录组的研究发现哺乳动物和其他生物体内大量的转录本虽然不编码蛋白质,但却以非编码RNA(noncoding RNAs,ncRNAs)的方式行使生物功能。长非编码RNA(lncRNA)是长度超过200nt的ncRNA,多数较为复杂的生物功能都有lncRNA的参与。而complementary DNA(cDNA)和Expression Sequence Tags(ESTs)项目每年都会产生百万计的转录本,将lncRNA从大量的转录本中快速而准确的挑选出来是一个艰难而有意义的工作,也逐渐引发了lncRNA的研究热潮。根据对mRNA和lncRNA数据集中两类RNA序列中潜藏信息之间差异的挖掘,本文中定义了基于开放阅读框的特征、蛋白序列相似性特征以及二级结构中基于最小自由能的特征这三大类特征。每一类特征都包含若干个指标,基于开放阅读框的指标为开放阅读框完整性、归一化的开放阅读框数量和开放阅读框覆盖率,基于蛋白序列相似性特征的指标为归一化的蛋白匹库配数量、蛋白库匹配E-value均值和阅读框匹配得分,而二级结构特征的两个指标为归一化最小自由能分别与GC含量以及二级结构中碱基配对个数之比。文中以NONCODE中的lncRNA和Refseq中的mRNA各取2000条作为训练数据集,将多个特征和支持向量机结合起来,提出一种新的长非编码RNA识别方法,可以根据用户的需要将这三类特征进行任意的组合。我们使用5折交叉验证对方法在训练集上进行了验证,取得了86%以上的识别正确率,而CPC在相同的数据集上识别率为85.9%,我们的方法更胜一筹。在lncRNAdb数据库上对方法的长非编码RNA识别有效性做了验证,至少可以识别出数据库中184条lncRNA里的113序列,而CPC仅仅能识别出其中的106条。最后我们根据实验所得到的结果对我们的方法进行了解释,并且结合着训练数据和验证数据在这三类特征上的分布给出了一定的生物解释。
其他文献
鉴于思想政治理论课在高等教育体系中的重要地位,持续开展思想政治理论课教学的应用研究一直是历年以来高等教育教学改革的重点。MOOC作为一种不同于传统方式的新兴教学手段,
分析合作学习理论指导下听说复习课模式的理论基础,结合教学实例阐述基于合作学习理论的农村中学初三英语听说复习课模式的流程,并通过实验数据分析该模式的可行性和有效性,
随着环境污染治理的不断深入,"京华烟云"、"雾霾倾城"等污染事件依然频繁发生。针对污染治理和污染排放同时增加这一现象,已有研究主要围绕国家和省级层面展开,忽略了城市群
目的:观察本体感觉神经肌肉促进技术(PNF)对脑卒中患者躯干控制的疗效及躯干屈伸肌群表面肌电信号的变化。方法:将30例脑卒中偏瘫患者随机分为观察组和对照组各15例,对照组给
旅游经济是当前文化发展中占有比重较大的部分,对于旅游产业的开发,全国各地都有其发展的目标和规划。随着旅游活动的增多,社会上也产生了很多不同的声音,认为旅游活动是会对
选取结核分枝杆菌潜伏相关抗原Rv2029c、结核分枝杆菌优秀抗原Ag85A和Rv3425,构建针对潜伏感染的结核分枝杆菌DNA疫苗pVAX1/Ag85A-Rv3425-Rv2029c(A39),并对其免疫原性进行研究。
高温逆境下,植物膜透性的增加导致细胞代谢紊乱并诱导热激基因表达。脂肪酸是构成生物膜的主要物质,饱和脂肪酸的含量及饱和程度高,有利于保持膜在高温时的流动性和稳定性。
根据人Lmbr1/C7orf2基因的一种缺失外显子4的可变剪接与Acheiropodia(ACHP)疾病的关联,本研究拟根据可变剪接在物种间的保守性,进行鸡Lmbr1这种相似可变剪接的鉴定和表达分析。
<正>依靠足迹分析解决罪犯的年龄。从足迹检验过程中准确推断罪犯的年龄是相当成功。本文应用了足迹检验、人体运动医学、人体生理学的有关知识,深入研究了现场足迹的形成和
DTMF拨号音的识别在通信领域有着重要的地位和作用.从基本概念着手,阐述了DTMF的编码、检测及解码原理,介绍了一种基于TMS320C5402实现对通话数据中DTMF拨号音进行检测和解码