基于reads引导的基因组序列拼接

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:clubshe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮助的同时,其数据海量、读取片段reads长度短、精确度低等特点也为全基因组序列拼接提出了相当严峻的挑战,而传统的序列拼接算法已不再适用。针对新一代测序的数据特点,研发能满足实际应用需要的基因组序列拼接软件,已显得极为迫切。本文首先简要介绍了新一代测序技术的产生背景、测序策略及技术特点等,认真分析了基因组序列拼接所面临的主要挑战,比如大量重复片段的存在,reads数据海量、长度短及含有测序错误等,深入探讨了当前基因组序列拼接所采用的主要策略,即贪心策略,交叠-排序-生成共有序列(OLC)策略和De Bruijn图策略等,总结了不同算法的优势及不足,并提出了序列拼接算法的改进方向。接着,本文提出了基于reads引导的基因组序列拼接算法,以整条reads为拼接的基本单位,并率先在拼接算法中提出了基于信息累计和数据特征相结合的评分方法。该算法分为reads拼接和contigs组装两个阶段,contigs是由reads拼接生成的长序列片段。reads拼接阶段主要包括数据预处理、De Bruijn图的建立、contigs构建等,而contigs组装阶段则主要有contigs相对位置的确定、交叠overlap检测、contigs连接及空隙gaps填充等过程,其中在确定contigs的相对位置时首次提出了配对数目数组PEN的概念,并用序列比对的方法消除或纠正contigs末端的碱基错误,提高了拼接精度。最后,进行了算法验证和性能评价。选取若干组数据对该算法软件进行测试,并用评测软件Mauve Assembly Metrics将拼接结果与主流的拼接软件进行比较,分析评测结果,得出了该算法在序列拼接时无论是拼接的长度还是拼接的准确度都表现不错的结论。
其他文献
可编程逻辑控制器(PLC)在现代工业自动化生产中发挥着极其重要的作用。经过40多年的发展,PLC的功能已得到很大拓展,大部分PLC厂家的产品己具有运动控制功能,如定位、直线插补
电子商务的快速发展使得在线购物变得普及,商品评论作为最重要的用户反馈,其数量正呈现爆炸性增长。基于公平性以及刺激用户的互动性,电子商务平台大多会公开商品的评论,这使
汽车是人们日常生活中不可缺少的交通工具,随着汽车保有量的不断增长,我国交通事故,汽车安全问题日渐突出,关系到社会的和谐发展、经济增长等重要问题,而且随着汽车智能化的要求越
随着我国科学技术的提高,我国现代化农业飞速成长,设施农业已经成为我国农业的首要生产方式。设施农业解决了传统农业中土地利用率低、生产周期长、技术含量低、作业环境差等缺
随着互联网的广泛使用和数码产品的普及,数字图像在人们生活中所占的比重越来越大。为了快速准确的从海量数字图像中找到需要的图像,人们提出了图像检索技术。目前图像检索技术
根据摩尔定律的表述,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍。但是,晶体管数目不可能无限制的增加,它总会达到一个极限。另外由于电子计算机自身计算性能存在局
视频目标跟踪是计算机视觉领域中的一项重要研究课题,已经广泛应用于人机交互、视频监控、智能环境及军事领域等方面,因此研究视频目标跟踪是非常有意义的。均值漂移(Mean Shift
全同态加密技术的提出对计算机科学与技术的发展具有举足轻重的意义,甚至有人认为全同态加密技术是云计算的救星。全同态加密具有直接操作密文而不需要解密的优越性质,即对密文
近年来,随着经济的快速发展,农业食品安全问题日益凸显。实时地监测农业生产信息,对指导农业生产及解决食品安全问题有着重大的意义。在整个监控系统中,无线传感器网络网关系统处
移动容迟网络(MobileDTN,简称MDTN)是从延迟容忍网络(Delay Tolerant Network,简称DTN)发展起来的一种新型网络,其特点是节点移动性强、长延迟、低传输率,采取"存储-携带-转