论文部分内容阅读
在人类基因组中能够转录编码蛋白质的区域大约占基因组总长度的2-5%,近些年来对转录组的研究发现哺乳动物和其他生物体内大量的转录本虽然不编码蛋白质,但却以非编码RNA(noncoding RNAs,ncRNAs)的方式行使生物功能。长非编码RNA(lncRNA)是长度超过200nt的ncRNA,多数较为复杂的生物功能都有lncRNA的参与。而complementary DNA(cDNA)和Expression Sequence Tags(ESTs)项目每年都会产生百万计的转录本,将lncRNA从大量的转录本中快速而准确的挑选出来是一个艰难而有意义的工作,也逐渐引发了lncRNA的研究热潮。根据对mRNA和lncRNA数据集中两类RNA序列中潜藏信息之间差异的挖掘,本文中定义了基于开放阅读框的特征、蛋白序列相似性特征以及二级结构中基于最小自由能的特征这三大类特征。每一类特征都包含若干个指标,基于开放阅读框的指标为开放阅读框完整性、归一化的开放阅读框数量和开放阅读框覆盖率,基于蛋白序列相似性特征的指标为归一化的蛋白匹库配数量、蛋白库匹配E-value均值和阅读框匹配得分,而二级结构特征的两个指标为归一化最小自由能分别与GC含量以及二级结构中碱基配对个数之比。文中以NONCODE中的lncRNA和Refseq中的mRNA各取2000条作为训练数据集,将多个特征和支持向量机结合起来,提出一种新的长非编码RNA识别方法,可以根据用户的需要将这三类特征进行任意的组合。我们使用5折交叉验证对方法在训练集上进行了验证,取得了86%以上的识别正确率,而CPC在相同的数据集上识别率为85.9%,我们的方法更胜一筹。在lncRNAdb数据库上对方法的长非编码RNA识别有效性做了验证,至少可以识别出数据库中184条lncRNA里的113序列,而CPC仅仅能识别出其中的106条。最后我们根据实验所得到的结果对我们的方法进行了解释,并且结合着训练数据和验证数据在这三类特征上的分布给出了一定的生物解释。