基于特征选择识别基因间长非编码RNA

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:CBHHOLY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组中仅有2%的基因能够编码蛋白,其余为非蛋白编码转录本。研究表明,器官功能越复杂,非蛋白编码序列含量越高。非蛋白编码RNA(非编码RNA)在人类生命发展进程中发挥重要调节作用,根据非编码RNA的长度不同将其分为:长链非编码RNA(lncRNA)、小非编码RNA(microRNA)。lncRNA与人类染色质重塑、细胞分化、表现遗传调控等许多生物过程相关,并参与多种复杂人类疾病调节。根据蛋白编码基因和lncRNA在基因组上的位置关系不同,lncRNA被分为4类:(1)同义长非编码RNA(sense lncRNA),与另一转录物和同一链上的外显子重复;(2)反义长非编码RNA(antisense lncRNA),与另一 RNA(多指mRNA)序列互补:(3)内含子非编码RNA(intronic lncRNA),从内含子区(编码蛋白基因)转录而来;(4)基因间长非编码RNA(lincRNA),由两个基因之间的位置转录产生。lincRNA作为最具代表性的一种lncRNA,已经被越来越多学者重视和研究。目前,人类基因组收录的lincRNA超过12000条,且许多lincRNA被实验证实与肿瘤细胞调节相关,虽lincRNA已被大量发现,但是想要准确识别lincRNA仍面临诸多困难。现有众多的lincRNA识别方法,大致可以分为两类:(1)基于RNA-Seq测序方法,经过文库制备与转录组重建,对lincRNA进行识别与分析,但该方法耗时长且成本高;(2)基于机器学习方法,在多维特征基础上构建分类器识别lincRNA,但特异性不高。因此,有必要运用优化特征等手段,构建生物信息学模型准确识别lincRNA。本文通过挖掘lincRNA和蛋白编码转录本(mRNA)的显著差异,从而达到精确识别lincRNA的目的。首先,依据最小自由能(MFE)和信噪比(SNR)等特征,结合4-mer等序列特征构造264高维混合特征集;然后,量化特征,使用Matlab编程计算SNR和其他序列特征,采用RNAfold软件计算MFE;最后,将实验数据集按照过采样和欠采样方式构造平衡数据集,对随机森林(Random Forest,RF)模型进行训练。为了证明RF模型的优越性,分别构建支持向量机(Support Vector Machine,SVM)、极限学习机(Extreme Learning Machine,ELM)等分类模型,并通过绘制ROC曲线和AUC值(ROC曲线下面积)大小比较分类模型的识别性能。RF模型的AUC值为0.922,结果表明,该模型在识别过程中表现出较好的鲁棒性。基于相同数据集的检验结果,新方法的灵敏度、特异性和精确度分别达到94.1%、93.2%和93.7%,表明本文提出的RF分类模型可高效识别lincRNA。
其他文献
在高中化学课堂教学中,因为高中化学的抽象性、微观性、逻辑性、专业性极强,许多学习活动仅靠学生自己是很难完成的。在这种情况之下,教师就需要组织多种形式的合作学习活动,
本文从“创设问题情境、引导学生自主参与、建立和谐师生关系”三个方面,阐述在小学数学教学中,如何提高课堂教学的有效性,促进学生可持续发展,使学生在有效的数学课堂中学到数学
目的探讨米菲司酮配伍米索前列醇治疗稽留流产的疗效。方法晨空腹口服米非司酮100mg,连用雨天.共200mg,第三日晨阴道后穹窿放米索前列醇600ug,待患者出现下腹阵痛,阴道流血明显时
英语已经成为我们的第二种语言,即使在农村,也是从小学开始普及英语。但是,到了初中,出现了很多学生英语学习困难的现象。究其原因,有的学生对英语不感兴趣,觉得英语是一门非
我校药理学实验教学自2004年开始在大专层次的所有专业中进行了探讨性实验改革,开展实验设计,让学生通过独立完成实验设计并操作实施,充分发挥学生的主观能动性,提高创新意识和动
科普展示要将枯燥深奥的科学技术原理,和先进前沿的新发现新技术,用通谷易懂而又有趣直观的方式传播给普通的参观者;展示内容是科普展示的核心,展示方式和手段就是科普展示成
神经内科科病人多数较重,用药时间长,加之早期多意识模糊、躁动,常用对血管有刺激的药物如20%的甘露醇、静脉营养液等,由于上述特点,所以对多数神经内科病人选用静脉留置针。因其材
美国一时得手并未改变多极化进一步发展趋势宋以敏美国在世界上的经济和安全地位近期明显改善并不表明世界多极化发展出现逆转。这是因为:发展中国家经济增长速度将在长时期内高于美国;美国经济近年领先于其他发达国家的状况不会持久不变;北约和美日安保条约不一定因东...
原发性肝癌是一种预后较差的恶性肿瘤,每年全世界新发病例50余万,男女患者病死率在肿瘤中占第三位和第五位。它的治疗可分为手术治疗和化学药物治疗。肝动脉栓塞、放射治疗、中
<正>从静脉药物配置中心管理者的角度,从我院静脉药物配置中心(PIVAS)的人员构成模式、运行流程和药护分工、人员管理要求等三个方面进行具体阐述。实践表明药师和护士协作能
会议