论文部分内容阅读
结直肠癌(CRC, Colorectal cancer)是世界第三常见恶性肿瘤,死亡率仅次于肺癌、肝癌和胃癌,位居世界第四,全世界每年大约有70万人死于结直肠癌。尽管结直肠癌在发达国家发病率更高,近年来,随着中国经济增长及人们生活水平的提高,结直肠癌发病率也在不断增长。根据双胞胎研究的估计,结直肠癌的遗传度大约为35%。通过全基因组关联研究(GWAS, Genome wide association study),人们发现了很多与结直肠癌相关的单核苷酸多态性(SNPs, single nucleotide polymorphisms)位点,但是目前这些已知位点的效应之和只能解释大约1%-4%的遗传度。拷贝数变异(CNVs, copy number variations)一般是指lkb以上DNA大片段的缺失(Deletion),增加(Duplication)或者倒置(Inversion)。近年来,人们发现CNV作为基因组多样性的一种新形式,在癌症发展过程中起着重要作用,可以解释一部分“缺失的遗传度”。并且CNVs的突变率和基因组覆盖率远远超过SNPs,因此近年来它对人类疾病的影响也越来越受到关注。但是大量的研究表明,大部分常见拷贝数变异(Common CNVs)与SNPs连锁,研究常见拷贝数变异难以发现更多新的致病位点。因此,近来很多研究者开始关注罕见拷贝数变异(Rare CNVs)在人类疾病中的作用。其中,已有文献表明,罕见变异虽然频率低,但对个体的效应相对较强。迄今为止,关于结直肠癌罕见拷贝数变异的相关研究还非常有限。一、研究目标:本研究旨在探索与结直肠癌发生发展相关的罕见拷贝数变异,筛选与结直肠癌相关的罕见拷贝数变异并进行验证,同时探讨这些拷贝数变异在结直肠癌中的临床意义,为后续的结直肠癌功能研究提供新的依据。二、材料与方法:本研究首先利用Illumina平台的Human-OmniExpress-12 v 1.0芯片,采用病例-对照研究的方法,对1004例散发性结直肠癌病人和1994例对照的外周血DNA进行了全基因组扫描。然后,采用PennCNV和QuantiSNP这两个软件,对芯片结果进行拷贝数检测与质量控制。利用PLINK软件筛选出罕见拷贝数变异,即在研究样本中频率低于0.5%的拷贝数变异。随机选取10个罕见拷贝数变异区域,在它们的上下游分别设计一对引物,使用荧光定量PCR方法验证软件预测结果。随后我们采用burden分析比较全基因组罕见拷贝数变异、干扰基因区域的罕见拷贝数变异及干扰蛋白质编码区的罕见拷贝数变异在结直肠癌和对照样本中的频率分布差异。对一些比较重要的指标,如发病部位、发病年龄及性别等,我们进一步进行了分层分析。利用基因分析(Gene-based分析)筛选出被罕见拷贝数变异干扰的基因。对于仅在结直肠癌病例中被干扰的基因(case exclusive)我们利用DAVID数据库进一步进行GO富集分析,探讨这些基因可能的功能。同时对显著富集的GO term里面的基因进行表达谱分析,利用GEO (Gene Expression Omnibus)数据库分析这些基因在结直肠癌组织及配对正常组织中的表达差异情况。基于上述Gene-basd分析的结果,再结合TCGA (The Cancer Genome Atlas)数据库、GEO数据库、及实验室的结直肠癌上皮组织中的肿瘤芽、中心癌细胞和正常上皮细胞及三组细胞对应的间质成分的表达芯片数据,我们筛选出拷贝数变异与表达显著相关、且在结直肠癌组织和配对正常组织中差异表达的基因SLC18A1 (Solute carrier family 18 member Al)作为候选基因。其中结直肠癌和配对正常样本之间的表达差异分析采用配对秩和检验,拷贝数变异和表达的关系采用协方差分析并矫正性别与年龄。使用TaqMan探针法对SLC18A1进行拷贝数变异分型,在另外的934例结直肠癌病例和2680例对照样本的外周血DNA进行扩大样本验证。选取另外的96对中国汉族结直肠癌组织及配对正常组织的DNA进行SLC18A1拷贝数变异检测,比较其在结直肠癌组织及配对正常组织中拷贝数变异的频率分布差异。对TCGA数据库615例结直肠癌组织及544例配对正常组织(个别配对样本拷贝数变异数据缺失)DNA中该基因的拷贝数变异频率分布差异也同样进行比较。采用卡方检验分析实验室96例及TCGA数据库532例结直肠癌组织DNA中SLC18A1的拷贝数变异与临床病理参数之间的关系,包括浸润深度、淋巴结转移、远处转移、TNM分期和总体生存率。再结合TCGA数据库pan-cancer数据进一步分析SLC18A1上的拷贝数变异在其他癌症中与该基因的表达及预后的关系。对实验室结直肠癌组织数据,TCGA结直肠癌组织数据及TCGA的pan-cancer数据,均采用log-rank检验比较SLC18A1基因在不同CNV状态下的和不同表达水平时的生存差异并绘制Kaplan-Meier (KM)生存曲线。最后采用UCSC genome browser分析SLC18A1上的拷贝数变异片段可能的功能。数据的统计分析采用SPSS19.0或者在PLINK软件中完成,P<0.05认为有统计学意义。三、研究结果:Burden分析结果显示,罕见拷贝数变异在结直肠癌病人中显著富集,并且频率为正常人群的1.53倍(P<1×10-6)。对于覆盖基因区域的罕见拷贝数变异与覆盖编码区的罕见拷贝数变异,这个差异更大,分别为正常人的1.65倍和1.84倍(P均<1×10-6)。根据年龄的三分位数将病例分成三组,发现低年龄组的病人即早发结直肠癌患者携带的罕见拷贝数频率要显著高于高年龄组。通过基因分析发现有639个基因被罕见拷贝数变异特异地干扰,对这些基因进行GO富集分析,发现这些基因主要与染色质的组装及嗅觉感受器相关。其中在结直肠癌中被干扰的19个与染色质组装或解体相关的基因中有17个是出现在较年轻的患者中。根据发病部位进行分层分析,发现结肠癌患者携带的罕见拷贝数变异的频率较直肠癌患者更高,并且上述信号通路均在结肠癌患者中显著富集,在直肠癌患者中未见显著富集的信号通路。根据GEO数据库的两组全基因组表达芯片数据GDS4832, GDS2948,我们发现染色质组装信号通路中大于40%的基因在结直肠癌组织/结直肠腺瘤组织中与其配对正常组织相比存在表达差异。我们筛选出SLC18A1基因作为目标基因。在GWAS阶段,该变异在694例质量控制后的病人中有4人携带该缺失,但在1641例对照中均未发现(P=0.008)。随后我们在另外的934例结直肠癌病人中发现5例缺失,在2680对照中发现1例缺失(P=0.005),两阶段合并的结果为携带SLC18A1种系拷贝数缺失(gemline deletions)的人群结直肠癌的患病风险的OR值达到16.7(P=6.4×10-5)。通过对96例结直肠癌组织DNA进行SLC18A1拷贝数分型,结果显示该基因在癌组织中拷贝数缺失频率比较高,约为33.3%,但是在正常配对组织中均未发现该基因缺失。同时该基因的缺失与肿瘤的远处转移显著相关(P=0.036)。在TCGA的615例结直肠癌拷贝数变异数据也同样显示SLC18A1在癌组织中拷贝数缺失的频率比较高,约为49.3%,但是在正常配对组织DNA中也均未发现缺失。同时SLC18A1拷贝数变异与浸润深度、淋巴结转移、远处转移、TNM分期和预后均显著相关(P值分别为0.029、5.4×10-6,2.1×104、2.3×10-6和0.052)。对分别来自TCGA数据库32对和及GEO数据库的17对结直肠癌组织及配对正常组织表达数据进行分析,我们发现SLC18A1在结直肠癌组织中的表达水平要显著低于配对正常组织中的表达水平(P=0.009和P=0.004)。SLC18A1在利用显微微切割精确捕获的3例结直肠癌病人的肿瘤芽中的中的表达水平均要低于正常肠上皮细胞中的表达水平(fold change为0.17-0.62),同时3例肿瘤中心癌细胞中的表达水平也均低于正常肠上皮细胞中的表达水平(fold change分0.12-0.57).此外,上述3例样本的的三组细胞对应的间质成分也呈现相同的差异表达关系,即SLC18A1在肿瘤芽间质成分和中心肿瘤细胞间质中的表达水平也均低于正常肠上皮细胞间质。TCGA的数据显示,SLC18A1基因拷贝数缺失会显著降低该基因的mRNA表达水平(P=2.8×10-4,N=369),同时与不利的预后显著相关(P=0.052,N=489),SLC18A1基因低表达的患者总体生存率也较差(P=0.037,N=312)。最后,我们汇总了来自TCGA数据库33种癌症类型共7991例样本该基因的拷贝数情况与表达的结果,发现该SLC18A1的缺失与表达相关(P=2.5×10-35),同时也与不利的癌症预后相关(P=4.72×10-8)。通过UCSC Genome Brower我们观察到GWAS阶段中这4个CNV重叠的区域存在比较强的H3K4Me1信号峰、DNaseI超敏位点集合及预测的转录因子结合位点,同时ESPERR预测的调控元件的信号峰度同样也比较强,提示该区域可能存在重要的功能调控元件。四、结论:1.基因组总体的罕见拷贝数变异,特别是覆盖基因区域的罕见拷贝数变异与覆盖编码区的罕见拷贝数变异在结直肠癌病人中显著富集,表明罕见拷贝数变异与结直肠癌的发生相关。2.通路分析显示在结直肠癌病人中被罕见拷贝数变异特异干扰的基因主要与染色质的组装及嗅觉感受器相关。3.罕见拷贝数变异在早发结直肠癌病人中的频率更高,表明早发病人拥有更明显的遗传组分而导致更早地表现出癌症表型。同时上述的与染色质组装相关的基因大部分在早发结直肠癌病人中被干扰,进一步提示这些基因在结直肠癌发生发展过程中的重要性。4.Burden分析和GO富集分析结果提示结肠癌和直肠癌的发病机制可能不一样,罕见拷贝数变异与结肠癌的遗传易感性关系更为密切。5.SLC18A1的拷贝数缺失会显著增加结直肠癌的患病风险。6.SLC18A1基因在结直肠癌病人中的种系拷贝数缺失频率较低,属于罕见变异,但是其体细胞拷贝数缺失频率较高。7.TCGA数据、GEO数据和显微微切割数据均显示SCL18A1在结直肠癌组织中的mRNA表达水平要显著低于配对正常组织中的表达水平。8. SLC18A1基因拷贝数缺失与结直肠癌患者不良的临床病理参数相关,包括浸润深度、淋巴结转移、远处转移、TNM分期和总体生存率。9. SLC18A1的拷贝数缺失会显著降低该基因的表达,同时与患者不利的预后相关,提示该基因可作为结直肠癌潜在的预后因子。10. SLC18A1的拷贝数缺失也会降低其在其它癌症组织中的表达水平,同时导致不良的预后,提示该基因的作用不局限于结直肠癌,可能在多种癌症中发挥作用。11 UCSC数据库数据注释表明SLC18A1上的缺失片段可能存在重要的功能调控元件。