论文部分内容阅读
目的:利用全外显子组测序技术,可以无偏倚的识别肝细胞肝癌蛋白质编码区中的基因突变。目前利用下一代测序技术研究肝细胞肝癌的报道还较少,并且在原始数据分析中尚无一个标准的分析流程可供参照。因此本研究先比较全外显子组测序分析流程中不同的预处理方法和变异识别方法,再根据比较后的结论构建体细胞突变识别的流程,并在公开的肝细胞肝癌外显子组数据中进行运用。我们试图通过本研究,为将来研究病毒相关性肝癌的突变模式、寻找驱动突变进行前期准备,建立实验框架。方法:1.利用两例全外显子组测序数据,从使用不同的预处理方法(FASTX-Toolkit、Trimmomatic及未做预处理),修饰后不同的不成对读长(Single-end reads,SE)取舍策略,以及两种不同的变异过滤方法(Hard过滤和变异质量得分重校正(variant quality score recalibration,VQSR))三个方面,通过数据覆盖深度(Depth of Coverage, DP)、识别变异的数目、转换/颠换率(Transition/transversion ratio,Ti/Tv)和基因型一致性等特征,比较这些因素对全外显子组变异识别结果影响。2.根据全外显子组数据分析流程,构建肿瘤组织体细胞突变识别流程。我们选择了用于识别体细胞点突变的MuTect程序以及识别体细胞插入和缺失变异的SomaticIndelDetector程序。3.以10组公开的HBV相关肝细胞肝癌癌组织和癌旁正常组织的外显子组测序数据为实验对象,利用已建立的肿瘤组织体细胞突变识别流程对其进行分析,研究其体细胞突变的情况,并用IPA对识别到的突变基因进行功能途径分析。结果:1. Trimmomatic预处理后的读长的测序覆盖深度与未预处理的原始数据接近,但明显高于FASTX-Toolkit预处理方法。当DP≥10×、基因型质量分值(Genotype Quality Score,GQ)≥20时,经Trimmomatic预处理后识别到的单核苷酸变异(single nucleotide variant, SNV)数量比FASTX-Toolkit多,与未预处理组接近。当包含SE读长时,FASTX-Toolkit组多识别出的SNV数量高于(28%)Trimmomatic组(5%)。当样本量较少时,在所有试验组中Hard过滤方法滤掉的SNV要少于VQSR。2. HBV相关肝细胞肝癌未经预处理直接与参考序列比对后,实际平均测序深度为9.76×-19.02×。共识别出926个基因发生了1100个非沉默的体细胞点突变,34个基因发生了34个体细胞性插入和缺失。IPA功能途径分析表明构建的网络与癌症相关,并且与GADD45信号通路(P=5.42E-03)、脂肪酸β氧化III途径(Fatty Acid b-oxidation III)(P=6.31E-03)、乙醇氧化降解途径(Oxidative Ethanol Degradation III)(P=6.85E-03)有关。结论:1. Trimmomatic修饰(过滤)原始序列更‘温和’,而FASTX-Toolkit可能过度过滤了原始数据。保留SE读长有利于下游变异识别。Hard过滤相较于VQSR表现出了更高的容忍度。2.构建了识别肿瘤全外显子组数据中体细胞突变的分析流程,并在10例公开的肝细胞肝癌样本中实现了良好的运行,为进一步分析肝细胞肝癌的遗传突变背景、寻找驱动体细胞突变奠定了方法学基础。