二代测序数据与酶切图谱的从头拼接算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fatcat120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组包含了生物体几乎全部的遗传信息,测定基因组序列是认知生物体生命规律的重要基础。随着DNA测序技术的发展,第二代测序技术以其高通量、低成本的特点,逐渐成为主流的测序技术;而限制性酶切作图技术能够获得酶切位点之间的距离信息,其大跨度的特点有助于解决二代测序中长重复序列的影响。  大多数二代拼接软件均面临两大难题:1)重复序列。重复序列导致形成复杂的de Bruijn图,对从图中寻找路径造成了很大困难;2)测序错误。测序错误主要分为单碱基错误和chimeric reads,即双端测序时产生的序列错配。目前,从头拼接算法大都基于启发式的拼接策略,在拼接质量和效率方面仍有很大的改善空间;如何快速建立基因组酶切位点图谱是目前拼接研究的新课题。  本文主要围绕基因组序列拼接中的算法问题,取得了如下成果:  1)设计了新的gap closure的算法,并与他人合作完成了新的二代数据拼接算法ARCS。  不同于启发式的拼接策略,ARCS首先区分重复序列(repeat)和非重复序列(unique);接着采用组合优化技术确定unique在基因组上的全局最优排列;最后根据unique排列内部gap的估计长度并通过打分确定最优的填补序列,从而得到拼接结果。  值得一提的是,基因组中存在近似相同的重复序列,称为“inexact repeat”。Inexact repeat在de Bruijn图中会形成“泡状”结构(bulge)。对基因组数据分析表明:inexact repeat显著影响拼接结果的连续性。  在ARCS,并不简单合并这些区域,而是将其切分成unique区域和重复区域,其中unique区域作为“桥梁”连接scaffold中的序列,从而延伸拼接结果。实验结果表明,这样“先整体后局部”的拼接思想,使得拼接过程更加可靠,性能(N50/N90,以及速度)优于目前主流的二代拼接软件。  2)提出并实现了新的酶切位点图谱拼接算法nanoARCS  本文提出了一种新的酶切图谱拼接算法nanoARCS,该算法基于一种适用于酶切图谱的新型数据结构——FLES图。nanoARCS首先采用聚类技术纠正分子中酶切图谱测定引入的错误;然后依据每个类别的代表FLES在分子中的出现位置估计同一个分子中所有FLES之间的相对距离;最后设计一个线性规划模型,求解每个分子在基因组上的位置。实验结果表明,nanoARCS能够显著提高酶切图谱拼接性能与速度。  本文的工作部分解决了目前二代数据拼接面临的重复序列、测序错误等拼接难点,提出的新的酶切位点图谱拼接算法具有显著的速度和精度优势,对于基因组序列拼接具有重要意义。
其他文献
本文对科研服务平台PKUSpace中标签挖掘子系统的设计与实现进行了探讨。本研究设计并实现了标签变体识别算法来处理标签的各种变体,并在实验中取得很好的效果。文章以聚类作为
随着视频数据的海量增长,视频数据的内容分析工作,得到了广泛的研究.这些工作利用了数据挖掘、机器学习、模式识别以及人工智能的技术,研究如何自动的得到视频中所包含的有用
计算机技术已经渗透到人们生活和工作的方方面面,大量的敏感信息需要计算机系统处理、存储和传输,系统的安全问题日益成为人们关注的焦点。目前,针对计算机系统安全的研究主要集
近年来,云计算作为一种基于互联网的新型计算方式得到广泛关注。Google、Microsoft、Amazon、阿里巴巴等公司均搭建了自己的云计算平台以提供公共的云计算服务。与此同时,虚拟
模态逻辑最初是被当成非经典逻辑的一个分支而逐步发展起来的.目前,模态逻辑已经被广泛用于人工智能的知识表示以及计算机科学的其他领域. 本文首先考虑目前一阶模态逻辑
对位置相关信息的访问一直是各种民用、军用应用需求的重要方面,传统的地理信息系统有必要扩展到移动环境中以提供这类信息服务。移动GIS就是这种融合了移动计算、地理信息系
基于主题查询的多文档自动摘要是计算语言学领域和信息抽取领域的一个重要研究课题,依据给出的主题查询,将多篇相关文档的内容浓缩为一个简洁、流畅、并能反映主题内容的摘要。
随着科学技术的进步与航天活动的迅速发展,深空探测越来越受到人们的重视,其中行星际轨道设计与优化技术是实现深空探测任务的关键技术之一。与近地卫星的轨道设计相比,行星际轨
本文关注集成环境下的信息精确性问题。通过对实际应用的分析和概括,本文将集成平台处理所处理的信息精确性问题分为三类:综合信息来源推断事实、依据所推断的事实纠正源中的
目前国内数控厂家研制的数控系统其内部总线均采用标准计算机ISA总线结构,虽然ISA总线具有简单可靠等优点,但其总线速度慢,带宽低。目前已被PCI总线所取代,PCI总线具有带宽大