论文部分内容阅读
在第二代测序技术广泛应用之后,人类基因组测序数据以爆炸式的速度飞速增长。虽然第二代测序技术的广泛使用为相关研究累积了大量的测序数据,但是得到这些测序数据只是获取基因组中有效信息的基础,研究的最终目的是要发现这些碱基对的排列组合与个体表型和癌症疾病的相关关系。通过分析和研究基因组数据有助于人们了解人类基因的工作原理。第二代测序数据具有片段短,复杂度高等特点,这对基因组数据分析工作提出了更高的挑战。人类基因组的变异形态多种多样,变异的长度从单个碱基的水平到染色体水平不等,如何准确检测出变异类型以及相应的变异区域是基因组数据分析中的重点和难点。目前,针对不同的变异类型,需要利用基因组数据中的不同信息来进行检测,至今已有各种各样的检测算法被研究出来。在人类基因组的各种变异形态中,拷贝数变异被相关研究证实与癌症疾病具有密切的相关性。因此,本文则主要聚焦于拷贝数变异检测的相关研究中。在现有的针对单样本的拷贝数变异检测算法中,如果样本是高覆盖度和高肿瘤纯度的,这些算法已经能够取得不错的检测结果。然而,在低覆盖度和低肿瘤纯度下,这些算法在检测精确率,召回率和1F分数等度量指标上表现较差,检测结果并不理想。本文主要针对单样本、低覆盖度和低肿瘤纯度的测序数据,设计相关拷贝数变异检测算法,研究如何在这些数据上给出较高的检测精确率和召回率,同时保证算法的计算效率。本文首先提出了一种基于孤立森林的拷贝数变异检测方法CNVIF,该方法利用树模型的非线性映射关系以及集成学习算法的优点,有效地刻画了每个滑动窗中RD信息的异常性。该算法在训练的过程中,每个区域异常值的大小与RD值在样本中的含量和排序有关,与其绝对差值无关,有效地解决了拷贝数变异检测中的数据不平衡问题。由于CNVIF在训练过程中未曾考虑相邻位置的相关性问题,本文进一步提出了一种结合了孤立森林算法和全变分模型的拷贝数变异检测方法CNVIFTV,该方法结合了两者的优点,将滑动窗相邻位置的相关关系加入到模型中,同时去除掉了区间内部的噪声信号,使得异常分数作为RD值异常性的度量指标更加可靠。对于原始的孤立森林算法而言,阈值是提前设定好的,没有针对特定数据集进行优化。对于拷贝数变异检测问题,本文通过改进的最大类间方差模型来自动选取异常分数阈值。最后,本文还对各个变异区域的拷贝数值进行了估计。