论文部分内容阅读
近十年来,高通量测序技术迅猛发展,个人基因组测序已经在基础医学研究、临床诊疗、健康管理、新药研发等领域得到广泛应用,极大地推动了相关领域的发展。由于个人基因组测序数据具有碎片化、规模巨大、高度复杂等特点,对其分析面临巨大的挑战。基因组变异是指不同个体的DNA序列之间的差异,基因组变异决定不同个体之间表型的差异以及多种疾病。从个人基因组测序数据中准确地检测各种不同类型的基因组变异对于个人基因组测序在不同领域的广泛应用具有重要的意义。基于高通量测序数据的基因组变异检测问题已成为计算机科学和生物信息学领域的研究热点与难点问题。围绕针对不同类型基因组测序数据的基因组变异检测问题,虽然新的算法、软件与工具层出不穷,但现有的基因组变异检测方法仍存在准确率较低的问题,大大限制了个人基因组测序在不同领域的广泛应用。本文拟重点面向肿瘤—正常配对样本基因组测序数据和家系基因组测序数据,针对几种难于检测的基因组变异,研究相应的检测方法,提高检测准确率。本文的主要内容如下:(1)针对现有的基于reads深度信息的拷贝数变异检测方法对reads深度分布无法准确建模的问题,研究基于负二项回归的reads深度概率模型,有效处理reads深度分布的过离散问题,同时准确体现GC含量和Mappability对reads深度的影响。该模型可以应用于单样本基因组拷贝数变异检测、群体基因组拷贝数变异检测、肿瘤—正常配对样本基因组拷贝数变异检测、家系基因组拷贝数变异检测。(2)针对现有的肿瘤—正常配对样本基因组拷贝数变异检测方法无法同时检测生殖系拷贝数变异和体细胞拷贝数突变以及检测准确率较低的问题,研究基于隐马尔可夫模型的肿瘤—正常配对样本基因组拷贝数变异检测方法。该方法将肿瘤细胞和正常细胞在基因组同一位置的拷贝数状态的组合定义为隐藏状态;根据基于β—二项分布的等位基因频率概率模型和基于负二项回归的reads深度概率模型计算输出概率,且在输出概率的计算过程中利用了肿瘤样本的不纯净性和肿瘤细胞染色体呈非整倍性的特征;根据生殖系拷贝数变异的拷贝数状态转移和体细胞拷贝数突变的拷贝数状态转移计算输出概率;利用Viterbi算法预测最可能发生的隐藏状态序列,从而检测出肿瘤细胞和正常细胞中均存在的生殖系拷贝数变异以及只有肿瘤细胞中存在的体细胞拷贝数突变。(3)针对单样本基因组拷贝数变异检测方法和群体基因组拷贝数变异检测方法在家系基因组测序数据上检测准确率较低的问题,研究基于隐马尔可夫模型的家系基因组拷贝数变异检测方法。该方法将一个三样本家系中所有样本在基因组同一位置的拷贝数状态的组合定义为隐藏状态;根据基于负二项回归的reads深度概率模型计算输出概率;根据孟德尔遗传和新突变事件两种遗传模式下的拷贝数状态遗传概率计算转移概率;利用Viterbi算法预测最可能发生的隐藏状态序列,从而检测出遗传性拷贝数变异和拷贝数新突变。(4)针对现有的家系基因组新突变(SNV和INDEL类型)检测方法无法处理reads错误比对导致检测结果假阳性率较高这一问题,研究基于梯度提升的新突变过滤方法。该方法对常用新突变检测方法产生的结果进行过滤,在确保基本不损失敏感度的前提下,显著降低错误的新突变的数量。