论文部分内容阅读
基因组包含了生物体几乎全部的遗传信息,测定基因组序列是认知生物体生命规律的重要基础。随着DNA测序技术的发展,第二代测序技术以其高通量、低成本的特点,逐渐成为主流的测序技术;而限制性酶切作图技术能够获得酶切位点之间的距离信息,其大跨度的特点有助于解决二代测序中长重复序列的影响。 大多数二代拼接软件均面临两大难题:1)重复序列。重复序列导致形成复杂的de Bruijn图,对从图中寻找路径造成了很大困难;2)测序错误。测序错误主要分为单碱基错误和chimeric reads,即双端测序时产生的序列错配。目前,从头拼接算法大都基于启发式的拼接策略,在拼接质量和效率方面仍有很大的改善空间;如何快速建立基因组酶切位点图谱是目前拼接研究的新课题。 本文主要围绕基因组序列拼接中的算法问题,取得了如下成果: 1)设计了新的gap closure的算法,并与他人合作完成了新的二代数据拼接算法ARCS。 不同于启发式的拼接策略,ARCS首先区分重复序列(repeat)和非重复序列(unique);接着采用组合优化技术确定unique在基因组上的全局最优排列;最后根据unique排列内部gap的估计长度并通过打分确定最优的填补序列,从而得到拼接结果。 值得一提的是,基因组中存在近似相同的重复序列,称为“inexact repeat”。Inexact repeat在de Bruijn图中会形成“泡状”结构(bulge)。对基因组数据分析表明:inexact repeat显著影响拼接结果的连续性。 在ARCS,并不简单合并这些区域,而是将其切分成unique区域和重复区域,其中unique区域作为“桥梁”连接scaffold中的序列,从而延伸拼接结果。实验结果表明,这样“先整体后局部”的拼接思想,使得拼接过程更加可靠,性能(N50/N90,以及速度)优于目前主流的二代拼接软件。 2)提出并实现了新的酶切位点图谱拼接算法nanoARCS 本文提出了一种新的酶切图谱拼接算法nanoARCS,该算法基于一种适用于酶切图谱的新型数据结构——FLES图。nanoARCS首先采用聚类技术纠正分子中酶切图谱测定引入的错误;然后依据每个类别的代表FLES在分子中的出现位置估计同一个分子中所有FLES之间的相对距离;最后设计一个线性规划模型,求解每个分子在基因组上的位置。实验结果表明,nanoARCS能够显著提高酶切图谱拼接性能与速度。 本文的工作部分解决了目前二代数据拼接面临的重复序列、测序错误等拼接难点,提出的新的酶切位点图谱拼接算法具有显著的速度和精度优势,对于基因组序列拼接具有重要意义。