论文部分内容阅读
第二代测序技术产生了短读长,由短读长拼接而成的重叠群可能存在组装错误的问题,由此可能会导致下游分析复杂化,甚至会造成不正确的分析结果。幸运的是,随着越来越多的物种序列被测定,使用相似物种的参考基因组去检测组装错误变的可行。此外,长读长的使用也越来越广泛,也可以用来检测组装错误。本文提出了一种新的算法ReMILO,它是一种参考基因组辅助的算法,同时使用短读长和长读长数据。ReMILO根据使用数据的不同,分为两个模块:(1)基于短读长和参考基因组的组装错误检测模块。ReMILO首先将短读长同时比对到参考基因组和重叠群上,然后根据比对结果构建一种新的数据结构红黑多位置de Brujin图来检测组装错误。这种数据结构是de Brujin图的一种变体,它将短读长在重叠群和参考基因组上的位置信息引入到图中的节点里,并且通过节点的合并重新拼接正确的重叠群,重叠群上的每个位置都可以在图中找到对应的节点。通过检查相邻节点间的关系,组装错误可以被检测出来。(2)基于长读长的组装错误检测模块。本模块的第一部分是对长读长纠错。MECAT是一个快速的长读长纠错软件,但是它的通量很低。ReMILO对MECAT做了进一步包装以实现快速高通量纠错。ReMILO基于MECAT的长读长比对信息,挖掘更多的比对结果以提高通量,并且去除错误的比对结果以提高精确度。此外,ReMILO还会使用已经纠错的长读长区域对未纠错的部分纠错,这可以进一步提高通量。本模块的最后一部分是检测组装错误。ReMILO将重叠群比对到纠错后的长读长上面,根据重叠群和长读长之间的差异去检测更多的组装错误,提高ReMILO算法的敏感度。在人类基因组第十四条染色体上的性能测试表明,ReMILO比现有算法可以多检测到0.5-13.3%的全局组装错误和2.5-15.5%的局部组装错误,并且错误的检测结果要低0.1-12.4%。在长短读长混合组装而成的巴氏酵母菌上的实验结果表明,ReMILO也可以比现有算法多检测到1.1-14.2%的全局组装错误和0.6-23.4%的局部组装错误。多个数据集上的实验结果说明了 ReMILO在检测组装错误时具有良好的敏感度和精确度。