论文部分内容阅读
随着新一代测序技术的不断发展以及基因组拼接方法的不断成熟,生物信息领域产生了越来越多的长基因组序列数据(测序数据和拼接片段),其中太平洋生物科技公司(PacBio)的单分子测序实时测序技术(Single-Molecule real-time,SMRT)更是将测序片段的平均长度增加到了接近10000bp。这些长基因组序列数据的产生对于生物信息领域的很多问题都将具有非常重要的研究价值,其中就包括结构变异检测等相关领域问题。基于长序列数据进行结构变异检测的直接方法就是对长序列数据进行序列比对,将长序列映射到参考基因组上,通过对所得到的比对结果进行分析,便可以得长序列中所包含的结构变异信息。然而,现有的长序列比对工具在处理包含大型结构变异数据时,其运行速度以及比对效果都存在着各式各样的缺陷,因此开发一款能够处理大型结构变异同时高效、精确的长序列比对工具是一项非常迫切并且有意义的工作。本文提出了一个新型的长序列快速比对工具LSAT。LSAT针对长基因组序列片段以及染色体结构变异的生物学特点,采用了一些在处理长序列比对时具有明显优势的比对策略,包括选种阶段的无交叠的长种子选取策略以及在种子筛选阶段采用的对于结构变异检测具有更高敏感性的最优覆盖连接模式,同时通过采用序列拆分比对的方法来获得结构变异的精确边界位置。实验结果表明,LSAT与现有的比对工具包括BWA-SW、YAHA等相比具有速度上的明显优势,同时在对于结构变异的检测方面,也显示出了更高的敏感性和准确性。