论文部分内容阅读
无论是在癌症还是非癌症的疾病中,拷贝数变异(copy number variation, CNV)均扮演了重要的角色。包括全基因组测序、外显组测序、转录组测序在内的新一代测序技术的飞速发展为检测拷贝数变异带来了新的高通量实验平台与分析手段。读段深度(read depth, RD)是分析这些测序数据的重要信号,然而读段深度受到鸟嘌呤-胞嘧啶含量、读段可定位性、分析窗口宽度等因素的严重影响,同时,外显子在基因组上分布稀疏且不均匀。因此,如何利用新一代测序技术检测拷贝数变异仍是十分具有挑战性的工作。本文旨在提出并实现外显组的测序数据的分析方法:我们首先定义了相对读段深度(relative read depth, RRD)并探究了该信号的统计学性质。分析结果显示,相对读段深度能较好地用经验公式描述,这为建立统计模型和优化模型参数提供了有利条件。并且,相较于原始读段深度,相对读段深度受鸟嘌呤-胞嘧啶含量、读段可定位性、分析窗口宽度等因素的影响较小,因此是更为理想的信号。在相对读段深度的基础上,我们建立了隐马尔可夫模型(idden Markov model, HMM),并利用最大期望算法(expectation-maximization algorithm)迭代优化模型中的各项参数。最终,我们利用Viterbi算法来估计各个外显子的拷贝数,从而完成对拷贝数变异的检测。为了给其他的研究者提供分析工具,我们将这一算法开发为软件ExomeHMM。为了测试算法的性能,我们首先分析了千人基因组计划的数据,利用实验验证的拷贝数作为金标准,我们将ExomeHMM与同类算法进行了比较,结果显示,在所有测试的算法中,ExomeHMM具有最高的综合性能。最后,我们利用ExomeHMM分析了三阴性乳腺癌的临床数据,并利用得到的拷贝数变异区段找出样本中可能发生异常的基因,富集分析的结果显示,这些基因与乳腺癌相关疾病显著相关。综上,无论是在正常样本或是肿瘤样本中,我们建立的模型均能较好地检测拷贝数变异和得出有生物学意义的结果。