论文部分内容阅读
原发性肿瘤组织通常是由肿瘤上皮细胞与基质细胞构成,基质细胞又包括免疫细胞、成纤维细胞,内皮细胞和正常上皮细胞等。由于不同位置的肿瘤组织存在差异性,因此手术切除取到的肿瘤组织样本的肿瘤上皮细胞和基质细胞所占的比例不同,即肿瘤细胞占比(肿瘤上皮细胞总数/(肿瘤上皮细胞总数+基质细胞总数))不同。进一步,肿瘤细胞占比的差异会对临床肿瘤组织样本的基因组和转录组研究造成影响。针对该问题,研究者提出在基因突变识别算法(如MuTect2)中矫正肿瘤细胞占比的影响或直接利用算法(如ABSOLUTE)对肿瘤细胞所占比例进行评估。但是,这些算法通常包含很多参数,应用于临床样本的实测数据时需要仔细调整,这给临床实际应用带来了很大的阻碍,且由算法估计的肿瘤细胞占比与临床免疫组化估计的结果的一致性低,因此临床上肿瘤细胞占比评估的金标准依然是基于病理专家对病理切片进行免疫组化分析得到的结果。我们之前的转录组学分析发现,TCGA数据库结肠癌和乳腺癌表达谱数据中有大量基因表达的检测值与肿瘤细胞占比之间存在显著相关性,这说明基因表达的检测值会受到肿瘤细胞占比的影响。因此,也有必要评估肿瘤细胞占比对肿瘤组织的基因组突变谱分析的影响。本研究利用TCGA数据库中32种癌型的突变谱数据及其对应的肿瘤细胞占比信息,分析了肿瘤细胞占比对突变检测的影响。首先,针对每一种癌型,我们分别分析了TCGA数据库中由四种突变识别算法识别到的样本的基因突变数目与肿瘤细胞占比之间的相关性,发现相关性最弱的算法是MuTect2,这说明相对于其他算法MuTect2算法对肿瘤细胞占比有一定的矫正能力。以MuTect2算法为例,结果显示8种癌型(胃腺癌、乳腺癌、肺鳞癌等)基因突变数目与肿瘤细胞占比呈显著的正相关(Spearman秩相关分析,p<0.05),说明基因突变数目显著受到肿瘤细胞占比的影响。接下来,我们分析了肺癌、胃腺癌、乳腺癌等七种常见癌症中肿瘤细胞占比对各肿瘤亚型基因突变数目的影响。以肺鳞癌和肺腺癌为例,本研究发现肺鳞癌的基因突变数目显著多于肺腺癌,相应地其肿瘤细胞占比也显著地高于肺腺癌,暗示着这两种亚型基因突变数目的差异可能是由肿瘤细胞占比的差异造成的。随后,我们分析了多种癌症的各亚型肿瘤细胞占比与基因突变率的关系。以弥散型胃腺癌样本为例,当肿瘤细胞占比为70%及以上时,MUC16、LRP1B、FAT4等10个基因在43个样本中突变频率均大于0.2558;当肿瘤细胞占比降低为60%-70%(包括60%)时,上述10个基因在18个样本中均出现了突变频率降低的现象;而当肿瘤细胞占比为60%以下时,上述10个基因在8个样本中的突变率均降为0,该结果说明当肿瘤细胞占比较低时,有些基因的突变检测会出现假阴性,从而影响该肿瘤亚型基因组特征的分析。总之,本研究表明在肿瘤组织中肿瘤细胞占比能影响基因突变检测的可信度,也影响了肿瘤亚型的基因组特征的分析,这可能进一步影响我们正确理解癌症生物学和实施精准治疗。因此,很有必要继续发展算法矫正肿瘤占比的影响,同时,在目前情况下解读肿瘤基因组信息时应当注意控制肿瘤细胞占比。