基于第二代测序数据的序列映射与基因组组装方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:nm76181156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
测序序列映射和基因组组装是基于第二代测序数据的研究中的基础性,同时也是具有挑战性的计算问题.本文对这两个问题进行了探讨。对于测序序列映射,我们注意到使用最广泛的Illumina技术的读长以及测序质量在逐渐提高,根据我们的计算,这使得长度足以保证特异度的完全匹配种子的出现成为可能.我们还注意到,绝大多数测序序列与参考基因组之间至多存在一个插入删失错误。  本研究提出了一个高效的映射方法SEME,它包括两部分:在种子阶段,利用单个完全匹配种子进行初步定位;在延拓阶段,在只允许测序序列与参考基因组之间最多存在一个插入删失的情况下,利用对于测序序列长度具有线性时间复杂度的自匹配函数法完成比对.我们还建立了与算法相吻合的数学模型,用以评估映射的敏感度与特异度,并作为参数选取的指导.模拟试验表明SEME具有很高的准确度.我们将SEME与一些常用的映射软件做了比较,SEME在速度和映射率上均优于其他软件。基因组组装所面临的一大挑战是重复区域造成的不确定性,我们开发了基因组组装流程BAUM,旨在减少该不确定性.BAUM以一个近缘物种的参考基因组为起点,将所有测序序列映射至参考基因组并找出单映射测序序列,继而基于参考基因组上的唯一性区域做进一步过滤,得到一系列叠阵(contig);参考基因组上的唯一性区域通过“自映射”来获得.如果两个基因组差异较大,则利用测序序列对参考基因组进行更新,并选取新的映射准则重新进行映射.在这之后,探测两个基因组间结构变异可能发生的位点,并在相应位置对叠阵进行切割,得到用于组装的初始叠阵.此后,利用双末端信息构建基因组架构;与此同时,局部地使用重叠法对每个叠阵进行延拓;叠阵延拓对于叠阵数目仅具有线性时间复杂度,并且可以并行地执行.最后对相邻的延拓后的叠阵进行连接,得到组装结果.该组装结果可以被用作参考基因组进行下一轮的迭代组装.组装过程中的映射准则根据概率计算来设定.我们利用BAUM实现了具有高比例重复区域的三种基因组:非洲长雄野生水稻、海南普通野生水稻,以及野蚕的组装,组装结果在N50等方面均优于从头组装方法。
其他文献
该文主要研究了一类变系数偏微分方程的自由边界问题,其中系数是空间变量的函数,这类方程在实际问题中有更广泛的应用.首先,根据变系数这一特点,利用积分差值法建立了方程的
该文主要研究了具有正负系数的时滞微分、差分方程的振动性和时滞微分方程周期解的存在性.全文共分五章,主要内容如下:第一章介绍了时滞微分方程、时滞差分方程振动性理论和时
该文主要研究了几类特殊的中立型延迟微分方程的稳定性.首先,简要地介绍了延迟微分方程及其应用,和近四十多年来延迟微分方程解析解稳定性理论及数值解稳定性理论的研究情况,
该文主要研究了混沌控制和混沌反控制中的一些问题,共成三个部分.第一部分介绍了研究的背景情况,包括混沌动力系统,混沌控制,混沌反控制的研究情况.第二部分是我们在混沌控制
律师参与信访工作研究的现状是没有专著研究,但理论文章不少,但研究弊端是某一方面经验总结有余,但理论概括不足.因此,未来我们重点要对“律师全面参与信访工作”问题做一些
提出了域上乘法群构造循环Hadamard差集的几种形式,该方法所构造的差集包含了单项超卵形所构造的差集及部分Singer差集,Paley-Hadamard差集,同时也产生了不属于以上任何类的
该文讨论基于Duane学习曲线性质的可靠性增长模型,即假设各个阶段产品的寿命服从相互独立的指数分布,指数分布的参数满足特定的形式.主要结果是:1)对于ERG模型,在完全寿命方案
基于格的公钥密码体制被广泛认为能抵抗量子攻击,目前是后量子时代公钥密码体制的主要候选之一,而格算法作为格密码中的重要组成部分,在密钥生成,加解密以及安全性分析方面发挥着
我们用多辛方法讨论了KP方程,得到KP方程的多辛形式公式,证明了多辛形式公式的推论与Bridges所定义的多辛方程组的多辛守恒律等价.我们还构造了KP方程的Bridges定义的多辛方
我们在Banach空间X上研究变分不等式问题(VIP),推广了N.Yamashita等作者在[4]中于R上的结果.同时在X上构造了一个与变分不等式问题等价的最优化问题,从而使作者可以应用叠代