论文部分内容阅读
基因组结构变异是存在于基因组中拥有多种变异类型的遗传变异。基因组结构变异影响生物体的表型特征、疾病发展等性状。由于基因组测序技术的局限性及基因组存在大量重复区域,检测及分析基因组结构变异仍是困难的工作。第三代基因组测序技术测得测序序列长度平均可达到10kbp,这些测序序列能覆盖基因组结构变异区域,因此可以用于检测基因组的结构变异信息。基因组测序分析日益成为实现精准医疗,推动人类健康发展的必要技术。从基因组测序数据中检测基因组存在的变异成为生物信息研究领域的热点问题。为了推动基因组结构变异及第三代测序序列分析算法的研究,本文调研了现有的第三代测序序列分析及结构变异检测算法,通过分析序列处理的过程指出目前算法存在的问题,提出基于序列比对骨架的结构变异片段检测算法。本文主要研究成果如下:(1)分析序列处理过程,发现目前结构变异检测的过程都需要先完成序列比对,再对从序列比对结果中分析出序列比对中断点用于检测结果变异。根据这一现状,本文提出绕过进行完整序列比对分析的过程,直接从序列数据检测中断点再进行结构变异分析的方法。(2)通过对测序序列构建de Bruijn图索引进行种子比对定位,对种子构建了无向有环图。在图上应用稀疏动态规划算法检测出种子之间存在的线性连接关系构建出序列比对的原始骨架。(3)设计相似序列块延伸算法得到序列比对骨架,并将序列比对骨架之间存在的连接间断视为序列比对中断点,用于检测测序样本中存在的基因组结构变异。(4)通过数据实验,测试发现本文提出的算法在真实人类第三代测序数据能有效找到结构变异。本文提出了基于序列比对骨架的基因组结构变异片段检测算法,其能在没有获得序列比对信息的情况下检测出基因组结构变异片段。本文提出的算法在进行基因组结构变异检测的时候具有速度优势。对于进行基因组结构变异检测分析及其他序列分析过程有指导意义。