论文部分内容阅读
近年来,高性能计算技术和高通量测序技术的快速发展促进了大量基因组测序计划的实施完成,并积累了海量的生物组学数据。面对这些测序数据,科学家们的首要任务是要获取它们的编码基因信息。当缺少参考基因组时,现有的基因识别工具主要依赖于RNA-seq从头组装软件先获得转录本序列,再进行基因鉴定。这一策略的缺点是过于依赖组装软件组装出的转录本,对测序错误高度敏感并且不能有效处理重复区域,因此识别的编码基因会出现高度冗余和碎片化现象。此外,由于可变剪接的存在,基于转录本识别出的直向同源基因集往往是片段化和冗余的,包含很多的同源异构体,这将为后续的系统发育推断带来很大偏差。 为了解决上述问题并提高基因重建的效率,首次提出一个新算法inGAP-CDG,该方法通过引入密码子de Bruijn图,特异性地拼接编码区域的序列,并利用支持向量机(SVM)方法过滤假阳性序列,实现从未拼接转录组中全面构建非冗余全长的编码基因序列。相对于传统的de Brujin图,密码子de Bruijn图减少了大概60%的点和边的数目。在密码子de Bruijn图的结构中,大部分是简单的子图分量,大大减少了拓扑图的复杂度。因此,在识别编码基因时,上述特征显著降低了解图过程的复杂度和冗余度,提高了基因识别的效率。在SVM过滤步骤中,大部分因测序或者移码错误造成的假阳性开放阅读框(ORFs)会被过滤掉,并建立可靠的ORFs作为解析图的路标。同其它方法相比,它增加了inGAP-CDG识别编码基因序列的特异度。具体而言,inGAP-CDG算法分为四个步骤:对测序短片段进行六框翻译;SVM过滤六框翻译后的假阳性ORFs;分别对六框翻译和SVM过滤后得到的ORFs构建密码子de Bruijn图,并对所构建出的密码子de Bruijn图进行遍历解析以得到编码基因序列。 与先前的基因识别方法相比,inGAP-CDG是第一款直接从未拼接转录组测序序列中预测编码基因序列的工具。通过使用模拟和真实数据集,全面评估了inGAP-CDG在重建编码基因上的长度、敏感度、特异度、冗余度和时间复杂度。与其它组合的方法(SOAPdenovo-Trans+ESTScan、SOAPdenovo-Trans+GeneMarkS-T、SOAPdenovo-Trans+Prodigal、SOAPdenovo-Trans+TransDecoder、Trinity+ESTScan、Trinity+GeneMarkS-T、Trinity+Prodigal、Trinity+TransDecoder、Velvet_Oases+ESTScan、Velvet_Oases+Prodigal和Velvet_Oases+TransDecoder)相比,在人类和黑腹果蝇的真实RNA-seq数据测试下(ERR188040、ERR1161592、SRR1045067、SRR3332174、SRR3332175和SRR3332176),inGAP-CDG预测的编码基因长度最长,假阳性、冗余度和片段化均最低;在人类不同测序错误的模拟RNA-seq数据测试下,inGAP-CDG整体表现比较稳健;在人类和小鼠的真实RNA-seq数据测试下(SRR3151756和SRR2922678),inGAP-CDG识别的编码基因有近80%被一对一的人类和小鼠直向同源参考基因对所覆盖。因此,inGAP-CDG可以显著地增加预测编码基因的长度,提高基因识别的特异度,减少编码基因的冗余度,并对测序错误不太敏感。这些优势对后续的基因组解析,包括系统发育关系重建和基因模型的构建,尤其是对新测序物种的基因功能注释有着重要的意义。