论文部分内容阅读
人类基因组中仅有2%的基因能够编码蛋白,其余为非蛋白编码转录本。研究表明,器官功能越复杂,非蛋白编码序列含量越高。非蛋白编码RNA(非编码RNA)在人类生命发展进程中发挥重要调节作用,根据非编码RNA的长度不同将其分为:长链非编码RNA(lncRNA)、小非编码RNA(microRNA)。lncRNA与人类染色质重塑、细胞分化、表现遗传调控等许多生物过程相关,并参与多种复杂人类疾病调节。根据蛋白编码基因和lncRNA在基因组上的位置关系不同,lncRNA被分为4类:(1)同义长非编码RNA(sense lncRNA),与另一转录物和同一链上的外显子重复;(2)反义长非编码RNA(antisense lncRNA),与另一 RNA(多指mRNA)序列互补:(3)内含子非编码RNA(intronic lncRNA),从内含子区(编码蛋白基因)转录而来;(4)基因间长非编码RNA(lincRNA),由两个基因之间的位置转录产生。lincRNA作为最具代表性的一种lncRNA,已经被越来越多学者重视和研究。目前,人类基因组收录的lincRNA超过12000条,且许多lincRNA被实验证实与肿瘤细胞调节相关,虽lincRNA已被大量发现,但是想要准确识别lincRNA仍面临诸多困难。现有众多的lincRNA识别方法,大致可以分为两类:(1)基于RNA-Seq测序方法,经过文库制备与转录组重建,对lincRNA进行识别与分析,但该方法耗时长且成本高;(2)基于机器学习方法,在多维特征基础上构建分类器识别lincRNA,但特异性不高。因此,有必要运用优化特征等手段,构建生物信息学模型准确识别lincRNA。本文通过挖掘lincRNA和蛋白编码转录本(mRNA)的显著差异,从而达到精确识别lincRNA的目的。首先,依据最小自由能(MFE)和信噪比(SNR)等特征,结合4-mer等序列特征构造264高维混合特征集;然后,量化特征,使用Matlab编程计算SNR和其他序列特征,采用RNAfold软件计算MFE;最后,将实验数据集按照过采样和欠采样方式构造平衡数据集,对随机森林(Random Forest,RF)模型进行训练。为了证明RF模型的优越性,分别构建支持向量机(Support Vector Machine,SVM)、极限学习机(Extreme Learning Machine,ELM)等分类模型,并通过绘制ROC曲线和AUC值(ROC曲线下面积)大小比较分类模型的识别性能。RF模型的AUC值为0.922,结果表明,该模型在识别过程中表现出较好的鲁棒性。基于相同数据集的检验结果,新方法的灵敏度、特异性和精确度分别达到94.1%、93.2%和93.7%,表明本文提出的RF分类模型可高效识别lincRNA。