基于密码子de Bruijn图的基因重建方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：q80602655

【摘要】

：

近年来，高性能计算技术和高通量测序技术的快速发展促进了大量基因组测序计划的实施完成，并积累了海量的生物组学数据。面对这些测序数据，科学家们的首要任务是要获取它们的编码

【作者】

：

彭公信

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

基因重建编码基因序列转录组学密码子

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，高性能计算技术和高通量测序技术的快速发展促进了大量基因组测序计划的实施完成，并积累了海量的生物组学数据。面对这些测序数据，科学家们的首要任务是要获取它们的编码基因信息。当缺少参考基因组时，现有的基因识别工具主要依赖于RNA-seq从头组装软件先获得转录本序列，再进行基因鉴定。这一策略的缺点是过于依赖组装软件组装出的转录本，对测序错误高度敏感并且不能有效处理重复区域，因此识别的编码基因会出现高度冗余和碎片化现象。此外，由于可变剪接的存在，基于转录本识别出的直向同源基因集往往是片段化和冗余的，包含很多的同源异构体，这将为后续的系统发育推断带来很大偏差。　　为了解决上述问题并提高基因重建的效率，首次提出一个新算法inGAP-CDG，该方法通过引入密码子de Bruijn图，特异性地拼接编码区域的序列，并利用支持向量机(SVM)方法过滤假阳性序列，实现从未拼接转录组中全面构建非冗余全长的编码基因序列。相对于传统的de Brujin图，密码子de Bruijn图减少了大概60％的点和边的数目。在密码子de Bruijn图的结构中，大部分是简单的子图分量，大大减少了拓扑图的复杂度。因此，在识别编码基因时，上述特征显著降低了解图过程的复杂度和冗余度，提高了基因识别的效率。在SVM过滤步骤中，大部分因测序或者移码错误造成的假阳性开放阅读框(ORFs)会被过滤掉，并建立可靠的ORFs作为解析图的路标。同其它方法相比，它增加了inGAP-CDG识别编码基因序列的特异度。具体而言，inGAP-CDG算法分为四个步骤:对测序短片段进行六框翻译;SVM过滤六框翻译后的假阳性ORFs;分别对六框翻译和SVM过滤后得到的ORFs构建密码子de Bruijn图，并对所构建出的密码子de Bruijn图进行遍历解析以得到编码基因序列。　　与先前的基因识别方法相比，inGAP-CDG是第一款直接从未拼接转录组测序序列中预测编码基因序列的工具。通过使用模拟和真实数据集，全面评估了inGAP-CDG在重建编码基因上的长度、敏感度、特异度、冗余度和时间复杂度。与其它组合的方法(SOAPdenovo-Trans+ESTScan、SOAPdenovo-Trans+GeneMarkS-T、SOAPdenovo-Trans+Prodigal、SOAPdenovo-Trans+TransDecoder、Trinity+ESTScan、Trinity+GeneMarkS-T、Trinity+Prodigal、Trinity+TransDecoder、Velvet_Oases+ESTScan、Velvet_Oases+Prodigal和Velvet_Oases+TransDecoder)相比，在人类和黑腹果蝇的真实RNA-seq数据测试下(ERR188040、ERR1161592、SRR1045067、SRR3332174、SRR3332175和SRR3332176)，inGAP-CDG预测的编码基因长度最长，假阳性、冗余度和片段化均最低;在人类不同测序错误的模拟RNA-seq数据测试下，inGAP-CDG整体表现比较稳健;在人类和小鼠的真实RNA-seq数据测试下（SRR3151756和SRR2922678），inGAP-CDG识别的编码基因有近80％被一对一的人类和小鼠直向同源参考基因对所覆盖。因此，inGAP-CDG可以显著地增加预测编码基因的长度，提高基因识别的特异度，减少编码基因的冗余度，并对测序错误不太敏感。这些优势对后续的基因组解析，包括系统发育关系重建和基因模型的构建，尤其是对新测序物种的基因功能注释有着重要的意义。

其他文献

光无线通信系统中光功率实时控制技术

光无线通信是伴随着信息社会对高速、大容量、低成本接入方式的强烈需求和大功率半导体激光器、高灵敏度光电探测器的日益完善而重新兴起的一种无线通信方式。光无线通信结合

学位

光无线通信驱动电路实时功率控制

野生和栽培大豆根际微生物对干旱胁迫的响应及反馈

干旱逆境被认为是植物生长发育的主要限制性因素,并且严重阻碍作物增产。大豆(Glycine max)作为蛋白质和脂质的主要来源在中国的农业生产中具有非常关键的作用。干旱胁迫是限制大豆产量的主要因素之一,干旱阻碍大豆植株的生长,减少花和荚的数量,导致产量的下降。因此,在提高大豆的抗旱性方面不容忽视。野生大豆(Glycine soja)是栽培大豆(G.max)的祖先,对外界的不良环境具有很强的耐受性和抗

学位

大豆根际微生物抗旱性机制干旱胁迫

微波成像算法研究与仿真

对空间运动目标的ISAR成像一直是人们关注和研究的重点,由于通过运动补偿后任意运动形式的目标都可以归结为旋转运动目标,所以旋转运动目标成像(转台成像)便成为ISAR成像的基

学位

逆合成孔径雷达成像转台成像R-D成像算法线性调频波窗函数

应用于TD-SCDMA终端的微带贴片天线研究与设计

与多数传统天线型式相比，微带贴片天线具备以下一些优点：体积小，重量轻，剖面薄，易集成，易共形，易于加工，造价低。微带贴片天线因为这些优点以及良好的性能得到了的广泛研究与应用。另

学位

TD-SCDMA小型化双频段微带贴片天线双U型槽加载

两株虫草菌非核糖体多肽合成酶和聚酮合酶基因及其系统学位置研究

广义虫草属（Cordyceps.l.）包括许多具有重要应用价值的种类，如药用历史悠久和在害虫防治上具有重要生防价值的昆虫病原菌等，该属真菌在医药和农业等行业上具有广阔的开发利用前景

学位

虫草菌非核糖体多肽合成酶聚酮合酶基因系统学位置生理功能

不同杂草管理措施对暖温带农田生态及经济效益影响研究

学位

营造境界

绘画之路艰辛多元。而营造高的境界须独上高楼,才能“望尽天涯路”。《艺术沙龙》:古人观山、游山、居山、写山,画出了胸中的山水,请谈谈你对中国画“写景造境”的理解。工仁

期刊

主客观世界造境艺术沙龙构景人观艺术作品中央美院你喜欢徽班却老

人乳头瘤病毒16及58型DNA在宫颈脱落细胞中的整合及其甲基化分析

高危型人乳头瘤病毒(Humanpapillomavirus，HPV)在宫颈上皮的持续感染能引起宫颈癌。病毒DNA在宿主基因组中的整合以及病毒自身DNA的甲基化可能在癌症发生过程中起了十分重要的

学位

人乳头瘤病毒HPV整合位点偏好性DNA甲基化

无图有真相

提诺·赛格尔在尤伦斯的展览口耳相传的火了，看过的人不仅热情地推荐给朋友，还会商量着什么时候再去一次。这种情形在我开始艺术媒体工作一年半以来是头一次遇到。　　艺术家就该和常人不同，这也是常人的期待。提诺·赛格尔在不坐飞机这一点上十分符合要求，因为他认为飞机会消耗更多的能源也造成更多的污染。这一与现代人行为习性相悖的执拗也体现在他的作品中。　　不仅在尤伦斯展出的两件作品不可以拍照、摄像，他的所有作品都

期刊

口耳相传行为习性媒体工作中所赛格

纵情于山水

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

基于密码子de Bruijn图的基因重建方法

与本文相关的学术论文