论文部分内容阅读
背景:肺癌是全球最常见的恶性肿瘤之一。2018年国际癌症研究署(International Agency for Research on Cancer,IARC)发布的《全球癌症报告》显示,全球肺癌新发和死亡病例均位居所有恶性肿瘤的首位。在我国,肺癌持续占据男性恶性肿瘤发病率和死亡率的第一位,并且占据女性恶性肿瘤发病率的第二位和死亡率的第一位,肺癌仍然是威胁我国人民健康的重要公共卫生问题。非小细胞肺癌(Non-small cell lung cancer,NSCLC)是肺癌最主要的组织病理学亚型,约占所有肺癌病例的85%,并且可以进一步细分为腺癌、鳞癌和大细胞癌。流行病学研究证据表明,肺癌的发生受到遗传因素和环境因素的共同作用。尽管早期的研究证据显示,烟草暴露是肺癌发生最主要的环境危险因素,然而只有不到20%的吸烟者最终发展成肺癌,这一信息提示即使在相同的环境因素暴露下,个体对肺癌的易感程度也存在差异。研究表明,单核苷酸变异(Single nucleotide variants,SNVs)是这类遗传易感差异的基础。近十余年来,随着高通量基因组分型技术的发展,全基因组关联研究(Genome-wide association study,GWAS)作为一项高效的分子流行病学研究策略,已经广泛应用于复杂疾病或性状的遗传学研究中。自2008年第一篇肺癌相关的GWAS发表以来,已经有30余项GWASs分别在欧洲和亚洲人群中对肺癌易感性相关的常见遗传变异[次要等位基因频率(Minor allele frequency,MAF)≥1%]进行了研究,共鉴定位于51个易感区域的81个易感变异。然而,研究者在对GWASs鉴定的遗传变异进行生物学功能解析时仍面临一定的挑战:一方面,目前GWAS所用芯片主要利用“人类基因组单倍型图谱(Hap Map)”和“千人基因组计划(1000 Genome Project)”两个数据库设计标签变异,所以发现的与疾病相关的遗传变异通常并非真正的致病变异。此外,目前GWASs鉴定的易感变异90%以上位于染色体的非编码区域,其对应的致病基因常难以确定,给其生物学功能的阐释带来了挑战。另一方面,GWASs的设计是基于“常见疾病-常见变异(common disease-common variants,CD-CV)”假说,仅能建立常见遗传变异与复杂疾病的关联。然而,目前鉴定的易感变异仅能解释肺癌0.7%~2.4%的遗传度,尚存在大量罕见遗传变异未能检测,其是否与肺癌的发生风险相关尚未可知。因此,如何鉴别已知易感区域真正的致病变异以及如何明确肺癌发病相关的罕见致病变异是“后GWAS”时期亟需解决的两个关键科学问题。第一部分基于全基因组关联研究的非小细胞肺癌易感区域的功能注释背景:近年来,生物学技术的快速发展为解析染色体非编码区域的调控元件提供了强有力的工具。多个国际大型研究项目,如“DNA元件百科全书(Encyclopedia of DNA elements,ENCODE)”计划、“表观基因组学线路图计划(Roadmap Epigenomics Project)”、“哺乳动物基因组功能注释(Functional Annotation of the Mammalian Genome,FANTOM)”计划和“基因型-组织表达(Genotype-Tissue Expression,GTEx)”项目和“癌症和肿瘤的基因图谱(The Cancer Genome Atlas,TCGA)”计划等,完成了对不同组织和细胞系多个组学的功能学注释,为研究遗传变异-基因-疾病的关联提供了丰富的资源。为了建立NSCLC既往报道易感区域遗传变异的功能评价体系,鉴定潜在的致病变异和易感基因,并初步阐述其遗传易感机制,本研究综合运用多种生物信息学预测算法和公共数据库提供的多个分子水平的生物学功能元件数据对所有肺癌易感区域的遗传变异进行系统注释和功能评价。方法:本研究首先依据下述标准定义了肺癌易感区域的索引变异(Index variant):(1)基于81个已知肺癌易感变异,将互相之间不存在或仅存在低、中度连锁不平衡(Linkage disequilibrium,LD)(r2<0.6)关联的易感变异定义为已报道易感区域的索引变异;(2)由于既往GWASs较为严格的统计学阈值(P<5×10-8)可能遗漏真正的致病变异,本研究基于课题组前期发表的GWAS中27120例NSCLC病例和27355例对照的关联数据进行Meta分析,并通过降低P值标准(P<1×10-6)进一步纳入独立于既往报道易感变异的遗传变异(r2<0.01)。随后,将位于上述两组索引变异区域,即位于索引变异上下游500kb且与索引变异存在高度LD关联(r2≥0.6)的遗传变异定义为肺癌的可靠风险变异(Credible risk variants,CRVs),并纳入后续分析。首先,本研究对位于编码基因外显子区域、启动子和增强子区域的CRVs分别进行注释;随后,将上述CRVs定位到相应基因,并依据变异对基因的功能影响及影响方式将基因分为三组,采用加权综合评分体系进行评分。具体评分标准如下:(1)受编码区变异作用的基因(即变异所在基因):若编码区的变异为截短变异或被六种生物信息学预测算法(包括CADD、FATHMM、LRT、Mutation Taster、Polyphen-2和SIFT)中的任意一个预测为“有害”的非同义变异,或该基因为已知肺癌驱动基因,则分别计一分;(2)受启动子区域变异近端调控的基因(即变异所在启动子区域对应的基因):若该变异位于基因的启动子及启动子相关组蛋白(H3K4me3或H3K9ac)修饰区域,该变异所在组蛋白修饰区域与转录因子结合位点重叠,该变异为相关基因表达的数量性状基因座(Expression quantitative trait loci,e QTL)或该基因为已知肺癌驱动基因,则分别计一分;(3)受增强子区域变异远程调控的基因(即与变异所在增强子元件互作的基因):若该变异位于增强子区域,该变异所在增强子元件与转录因子结合位点重叠,该变异为与增强子互作基因的e QTL或该互作基因为已知肺癌驱动基因,则分别计一分,若变异所在增强子区域为高通量染色质构象捕获实验鉴定所得,则计两分。若上述三类基因在肺癌/癌旁组织或正常肺组织中被定义为低表达基因,即在少于1%的样本存在表达,则基因评分的权重×0.1。最后,依据上述评分将基因分为功能证据强弱不同的四类,其中第一类基因证据最强,第四类基因证据最弱。所有增强子和启动子的互作数据均下载于ENCODE、FANTOM和Pre STIGE数据库,肺组织或肺癌相关细胞系的组蛋白修饰区域、转录因子结合区域和染色质互作区域相关数据下载自ENCODE及Roadmap数据库,e QTL数据则基于本课题组肺癌/癌旁组织、TCGA项目肺癌/癌旁组织和GTEx正常肺组织的基因表达数据和基因分型数据分别经计算获得。结果:本研究共确定位于67个索引变异区域的3064个变异作为CRVs纳入后续分析。其中,58个索引变异位于既往报道的易感区域,另外九个为新鉴定的索引变异,分别位于染色体2q21.3、4p14、4q27、6p22.1、8p23.1、9q31.3、11q23.3、13q24和15q24.1区域。在3064个可靠风险变异中,39个(39/3064=1.27%)位于基因的编码区域,包括2个无义变异和20个错义变异;3025个位于非编码区域,且在启动子和增强子相关的组蛋白修饰区域以及DNase I超敏位点区域存在显著富集。通过整合多个分子水平的功能基因组学数据对上述变异进行注释和功能评价,共鉴定位于20个索引变异区域的24个证据最强的第一类易感基因,位于34个索引变异区域的84个证据较强的第二类易感基因,位于61个索引变异区域的394个证据较弱的第三类易感基因和位于52个索引变异区域的218个证据较弱的第四类易感基因。在上述鉴定的基因中,位于38个索引变异(38/67=56.72%)区域共计95个功能证据较强的第一类和第二类基因被定义为NSCLC潜在的功能性致病基因,包括CASP8、BRCA2和NRG1等已知肿瘤驱动基因。其中包括,受编码区变异作用的位于7个索引变异区域的7个基因,受启动子区域变异近端调控的位于28个索引变异区域的37个基因,受增强子区域变异远程调控的位于30个索引变异附近的73个基因。富集分析的结果显示,上述95个致病基因主要参与26个生物学通路(多重校正后P<0.05),其中包括19个免疫相关的通路,如干扰素γ信号通路(P=9.24×10-18)和PD-1信号通路(P=5.48×10-15),五个尼古丁胆碱受体相关的通路和两个同源重组相关的DNA修复通路。结论:本研究通过整合大样本人群的GWASs数据和多个分子水平的功能基因组学数据,首次建立了GWASs报道易感区域遗传变异和基因的功能评价体系,并成功对超过一半肺癌易感区域的致病变异和致病基因进行了鉴定。该结果从易感性的角度阐释了非小细胞肺癌的发生机制,为非小细胞肺癌的分子生物学研究提供新的方向。第二部分基于全基因组测序的非小细胞肺癌编码区罕见致病变异的系统鉴定背景:近年来,随着第二代测序技术的发展,越来越多的证据提示,罕见遗传变异对疾病的发生同样具有重要作用。基因的编码区是经典的功能区域。然而,在本研究第一部分的结果中,基于传统GWASs芯片所鉴定的常见遗传变异多位于基因组的非编码区域(3025/3064=98.73%),鲜少位于基因的编码区域。上述现象的发生是由于芯片未能系统覆盖基因编码区的变异,还是由于这些区域不存在肺癌的致病变异尚未可知。此外,既往肿瘤家系研究发现,经典肿瘤易感基因的编码区常存在罕见致病变异。然而,目前尚缺乏研究探讨上述基因编码区域的罕见变异在人群中的频率以及其与肺癌发生风险的关联。因此,本研究拟基于全基因组测序数据进行罕见变异的检测,并综合运用多个数据库对相关变异的功能进行注释和评价,从而系统解析上述基因编码区功能性罕见变异与NSCLC发生风险的关联。方法:本研究采用病例-对照设计,对1473例NSCLC病例和1488例对照进行全基因组测序。通过初步质量控制去除质量不合格的样本,包括存在污染、测序深度较低、测序比对参数异常、性别异常、存在亲缘关系及存在明显人群分层的样本。使用Genome Analysis Toolkit(GATK)软件(v3.8)的标准流程对SNVs和短片段插入-缺失变异(Insertions and deletions,Indels)进行系统鉴定后,进一步去除可靠程度较低的变异,包括:(1)分型成功率小于95%的变异;(2)偏离Hardy-Weinberg平衡的变异(P<1×10-4);(3)杂合率小于60%的变异;和(4)测序深度小于15X的变异。综合使用本课题组自行开发的注释工具以及Clin Var数据库对上述变异进行注释后,对本研究第一部分鉴定的95个证据较强的第一类和第二类肺癌易感基因和既往报道的152个经典肿瘤易感基因编码区的罕见功能性变异进行系统评价。功能性变异的定义如下:(1)Clin Var数据库收录的证据等级至少达到两星的致病变异和可能致病变异,包括错义变异和剪切区域变异;(2)在本研究的研究对象中MAF小于0.5%、gnom AD数据库东亚人群和总人群中MAF小于0.5%或未收录的罕见功能丢失变异,包括无义变异、移码变异和剪切位点变异。对最终评估为功能性的罕见变异,使用Fisher精确检验比较相关基因在NSCLC病例和对照样本中突变率的差异。使用Cochran’s Q检验评价不同年龄亚组、不同性别亚组、不同吸烟状态亚组和肺癌不同组织病理学亚型之间的异质性。结果:针对第一部分鉴定的95个肺癌易感基因,本研究发现NSCLC病例(变异携带率=6.11%)和对照(变异携带率=5.58%)样本中携带相关基因上罕见功能性变异的比例不存在统计学差异(OR=1.12,95%CI=0.82-1.52,P=0.50)。对于152个经典肿瘤易感基因,本研究共在192例NSCLC病例中检测到位于66个基因上的206个罕见致病变异,包括23个错义变异、78个移码变异、58个无义变异、43个剪切位点变异和4个剪切区域变异,变异携带率为13.03%。其中,变异数较高的基因包括SLC25A13(n=17)、SBDS(n=15)、GJB2(n=13)、ATM(n=11)、BRCA2(n=11)、ATR(n=6)、COL7A1(n=6)、MUTYH(n=6)、PTEN(n=6)、BRCA1(n=5)、FANCA(n=5)、RAD51D(n=5)和TSHR(n=5)。在对照样本中,有136例样本携带139个罕见功能性变异(变异携带率=9.14%)。通过比较相关基因在病例和对照样本中突变率的差异,本研究发现NSCLC病例中罕见功能性变异的突变率显著高于对照样本(OR=1.53,P=1.55×10-4)。分层分析显示,上述基因的罕见功能性变异在女性人群中与NSCLC发病风险的关联效应(OR=2.03,P=2.61×10-5)大于男性人群(OR=1.22,P=0.20)(异质性检验P=0.04);罕见变异在年龄较小(≤60岁)的人群中与NSCLC发病风险的关联效应(OR=2.20,P=2.15×10-5)大于年龄较大(>60岁)的人群(OR=1.24,P=0.13)(异质性检验P=0.02)。进一步分析单个基因在病例和对照样本中变异携带率的差异发现,ATM(OR=11.14,P=3.25×10-3)和BRCA2(OR=3.71,P=0.03)两个基因相关的罕见变异在NSCLC病例中的突变率显著高于对照样本,而FANCA、FANCM、POLD1、TP53、POT1和WRN六个基因仅在NSCLC病例中检测到变异。结论:本研究发现经典肿瘤易感基因上的罕见致病变异与NSCLC的发生风险相关,而GWASs鉴定的肺癌易感基因上的罕见功能性变异则与NSCLC的发生无统计学关联。该结果提示,传统GWASs发现的易感基因鲜少通过编码区遗传变异所致氨基酸的改变影响肺癌的易感性,而家系研究中发现的高外显率的肿瘤易感基因编码区的罕见变异则是肺癌易感性的重要来源之一。该结果对于利用全基因组测序技术全面解析肺癌的致病变异提供了重要线索,通过全基因组测序鉴定经典肿瘤易感基因编码区的罕见致病变异,不仅可以进一步丰富NSCLC的遗传图谱,也有利于解析其发生的遗传机制。然而,由于目前对染色体非编码区功能性变异的评价标准尚不统一,因此本研究仅关注基因的编码区域,而非编码区域的罕见致病变异是否影响肺癌的发生风险有待进一步研究。