论文部分内容阅读
新一代测序技术的诞生,即高通量测序技术,使得人类全基因组在测序成本和测序时间上越来越低,这极大地促进了人们对基因组信息的研究。其中,对拷贝数变异的检测方法研究是该研究领域内的一项重要内容。基因组结构变异中的拷贝数变异不仅决定着个体差异,也决定着许多疾病的发生。如何在海量的高通量测序数据中准确的检测出拷贝数变异是该领域内研究的重点和难点。现有的对基因组拷贝数变异检测的方法层出不穷,然而,这些检测方法的准确率依然较低,且都是基于单个样本的测序数据的独立检测方法,无法准确检测出遗传型拷贝数变异和新生拷贝数变异。家系三样本的全基因组测序数据对研究遗传疾病和拷贝数变异的类型分析都起着非常重要的作用。本文针对现有的基于单样本拷贝数变异的检测方法准确率较低,且无法准确检测出遗传型拷贝数变异和新生拷贝数变异的问题,研究基于家系三样本测序数据的联合拷贝数变异检测方法。对现有的基于reads深度信息的概率模型进行分析,使用真实的测序数据对这些概率模型进行拟合。综合评测各个模型的优缺点,选择效果最好的模型供检测方法研究使用。研究测序数据中双末端映射信息的性质,分析真实数据集中双末端映射信息插入片段长度的分布情况,设计基于双末端映射信息的聚类检测算法。通过对真实的测序数据中SNV位点上等位基因频率信息的分析,使用β—二项分布拟合等位基因频率信息,进而完成等位基因频率概率模型构建。本文详细介绍了基于家系三样本测序数据的拷贝数变异检测的构建过程。该检测系统使用使用隐马尔科夫模型,将基于reads信息的概率模型和基于等位基因频率的概率模型作为隐藏状态和观察状态之间的发射概率,将基于双末端映射信息的聚类算法添加到该检测系统的后处理过程。该系统支持对家系三样本的拷贝数变异同时进行检测,意在提高检测性能的同时,准确检测出遗传型拷贝数变异和新生拷贝数变异。