论文部分内容阅读
随着肿瘤研究的深入,人们逐渐认识到个体肿瘤存在一种典型的性质——异质性。肿瘤异质性是指同一肿瘤组织中存在不同类型的亚克隆细胞,它们在分化程度、侵袭转移能力以及对药物的反应等诸多方面存在差异。当前,高通量、大规模的测序技术使得从基因组水平上揭示肿瘤的本质成为可能。如何对测序所产生的海量数据进行有效地建模分析,是肿瘤基因组学亟待解决的问题。由于肿瘤样品的纯度问题、亚克隆细胞基因组复杂的变异方式以及高通量测序信号本身的噪声特性,构建合适的异质性肿瘤数据的统计模型依然具有挑战性。在这一背景下,本文提出了两种异质性肿瘤统计分析方法,分别以单核苷酸多态性微阵列(SNP arrays)和下一代测序(NGS)数据为基础,围绕亚克隆细胞的识别以及肿瘤基因拷贝数变异的鉴定进行了深入分析和研究。主要内容安排如下:1)详细地介绍了SNP arrays技术提供的两个基因信号Log R ratio (LRR)和Ballele frequency (BAF)对应不同的拷贝数变异时的信号值的变化。分析了一些实际肿瘤样品中的非理想因素,包括正常细胞污染、肿瘤细胞非整倍性、GC含量对基因信号带来的偏移,重点讨论从基因信号的二维分布图中怎样发现肿瘤异质性。2)借助正常成对基因组数据和已注解的SNP位点将NGS技术的全基因组读数信息经过提取和转换,得到和SNP arrays技术具有类似意义的LRR和BAF信号,同时也提出两个平台上信号在分布、信噪比及数据量上存在差异。3)提出了异质性肿瘤SNP arrays数据的分析方法(CHASE)。该算法采用隐马尔科夫模型(HMM)建立可观察的基因信号和对应隐藏的基因型之间的关系,同时考虑了多种非理想因素。该方法的创新点在于建立了两种肿瘤亚克隆同时存在的情况,采用了牛顿迭代算法来估测亚克隆细胞的比例。对于多组模拟肿瘤数据集和两个真实的乳腺癌数据的分析结果显示,该方法对检测异质性肿瘤中亚克隆细胞的比例以及克隆变异和亚克隆变异都具有较高的准确性。4)提出了针对正常-肿瘤成对NGS数据的异质性和基因型检测方法(SAPPH)。该方法采用增强的循环二进制分割算法(CBS)将基因组分成基因片段,通过过滤出高可靠性基因片段、聚类局部肿瘤基因比例和贝叶斯信息准则(BIC)模型选择的策略,有效地避免了信号截断的影响、降低了分析的时间复杂度。模拟实验表明该算法可以有效地检测出样品中多种亚克隆细胞比例和基因组拷贝数变异。本文的研究对异质性肿瘤SNP arrays和NGS数据的分析提供了有效的生物信息学工具,并对寻找癌症驱动基因、研究癌症基因组的演化历史和个性化治疗带来了很大帮助。