论文部分内容阅读
针对肿瘤样本测序数据所做的基因拷贝数变异(Copy Number Variation,CNV)检测是研究癌症相关基因变异的重要手段。下一代测序技术(the Next Generation Sequencing)的迅速发展产生的海量测序数据,一方面推动了基因拷贝数变异检测算法的发展,另一方面带来了数据处理与存储等计算问题的挑战。本文利用读段深度法的检测CNVs的原理,构建了一套以贝叶斯信息准则(Bayesian information criterion,BIC)为理论依据的CNVs检测流程,针对该流程在CNVs检测过程时产生的区域断点位置检测不精确的问题,本文在序列统计阶段提出了一种基于序列数目等量的初始窗口划分策略。这种初始窗口划分策略根据要分析的测序数据动态地确定了尺寸可变的初始窗口,改善了一般窗口划分机制中断点位置预测敏感度低、不精确的问题,从而提升了CNVs的检测能力。本文在基于BIC的CNVs检测流程的基础上,为解决大规模测序数据的使用而导致的CNVs检测耗时长这一问题,提出了一种新的面向多核平台的基因拷贝数变异检测的并行算法。我们在深入解析分割算法的基础上,对算法进行了并行化可行性分析,通过将计算过程划分为多个计算BIC值和BIC差异值的计算任务在多核平台上完成实现。测试的结果表明,本文提出的优化算法能够有效的提升拷贝数变异检测的性能,在8核CPU平台上能够获得相对串行程序6.74倍的加速比。本文针对当前CNVs检测中的肿瘤样本DNA测序数据来源于肿瘤组织中肿瘤细胞与基质细胞的混合体这一问题,分析了通过检测肿瘤组织样本中肿瘤细胞纯度?、确定基因组倍数性?,最终实现基因组上绝对拷贝数变异的估算的理论依据,并将该内容与前两个内容一起构成了完整的绝对拷贝数变异检测流程。通过分析由肿瘤组织样本中肿瘤细胞纯度?、基因组倍数性?以及发生变异的各区间绝对拷贝数iq之间的关系建立的最小目标函数问题,我们改进了求解最小目标函数的算法,并对改进后的搜索算法进行了并行优化,实验结果表明,本文对求解最小目标函数的改进和优化有效地将检测流程应用在多核平台上,很大程度上提升了绝对拷贝数变异的检测的能力。