论文部分内容阅读
基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮助的同时,其数据海量、读取片段reads长度短、精确度低等特点也为全基因组序列拼接提出了相当严峻的挑战,而传统的序列拼接算法已不再适用。针对新一代测序的数据特点,研发能满足实际应用需要的基因组序列拼接软件,已显得极为迫切。本文首先简要介绍了新一代测序技术的产生背景、测序策略及技术特点等,认真分析了基因组序列拼接所面临的主要挑战,比如大量重复片段的存在,reads数据海量、长度短及含有测序错误等,深入探讨了当前基因组序列拼接所采用的主要策略,即贪心策略,交叠-排序-生成共有序列(OLC)策略和De Bruijn图策略等,总结了不同算法的优势及不足,并提出了序列拼接算法的改进方向。接着,本文提出了基于reads引导的基因组序列拼接算法,以整条reads为拼接的基本单位,并率先在拼接算法中提出了基于信息累计和数据特征相结合的评分方法。该算法分为reads拼接和contigs组装两个阶段,contigs是由reads拼接生成的长序列片段。reads拼接阶段主要包括数据预处理、De Bruijn图的建立、contigs构建等,而contigs组装阶段则主要有contigs相对位置的确定、交叠overlap检测、contigs连接及空隙gaps填充等过程,其中在确定contigs的相对位置时首次提出了配对数目数组PEN的概念,并用序列比对的方法消除或纠正contigs末端的碱基错误,提高了拼接精度。最后,进行了算法验证和性能评价。选取若干组数据对该算法软件进行测试,并用评测软件Mauve Assembly Metrics将拼接结果与主流的拼接软件进行比较,分析评测结果,得出了该算法在序列拼接时无论是拼接的长度还是拼接的准确度都表现不错的结论。