论文部分内容阅读
测序序列映射和基因组组装是基于第二代测序数据的研究中的基础性,同时也是具有挑战性的计算问题.本文对这两个问题进行了探讨。对于测序序列映射,我们注意到使用最广泛的Illumina技术的读长以及测序质量在逐渐提高,根据我们的计算,这使得长度足以保证特异度的完全匹配种子的出现成为可能.我们还注意到,绝大多数测序序列与参考基因组之间至多存在一个插入删失错误。 本研究提出了一个高效的映射方法SEME,它包括两部分:在种子阶段,利用单个完全匹配种子进行初步定位;在延拓阶段,在只允许测序序列与参考基因组之间最多存在一个插入删失的情况下,利用对于测序序列长度具有线性时间复杂度的自匹配函数法完成比对.我们还建立了与算法相吻合的数学模型,用以评估映射的敏感度与特异度,并作为参数选取的指导.模拟试验表明SEME具有很高的准确度.我们将SEME与一些常用的映射软件做了比较,SEME在速度和映射率上均优于其他软件。基因组组装所面临的一大挑战是重复区域造成的不确定性,我们开发了基因组组装流程BAUM,旨在减少该不确定性.BAUM以一个近缘物种的参考基因组为起点,将所有测序序列映射至参考基因组并找出单映射测序序列,继而基于参考基因组上的唯一性区域做进一步过滤,得到一系列叠阵(contig);参考基因组上的唯一性区域通过“自映射”来获得.如果两个基因组差异较大,则利用测序序列对参考基因组进行更新,并选取新的映射准则重新进行映射.在这之后,探测两个基因组间结构变异可能发生的位点,并在相应位置对叠阵进行切割,得到用于组装的初始叠阵.此后,利用双末端信息构建基因组架构;与此同时,局部地使用重叠法对每个叠阵进行延拓;叠阵延拓对于叠阵数目仅具有线性时间复杂度,并且可以并行地执行.最后对相邻的延拓后的叠阵进行连接,得到组装结果.该组装结果可以被用作参考基因组进行下一轮的迭代组装.组装过程中的映射准则根据概率计算来设定.我们利用BAUM实现了具有高比例重复区域的三种基因组:非洲长雄野生水稻、海南普通野生水稻,以及野蚕的组装,组装结果在N50等方面均优于从头组装方法。