论文部分内容阅读
研究背景国际癌症研究中心(International Agency for Research on Cancer,IARC)报告显示:世界范围内,胃癌(Gastriccancer,GC)位列第五大常见癌症,并且是第四大癌症死亡原因,2020年全球新增胃癌病例人数约1,089,103例,估计死亡人数约768,793人。其中,2020年我国预计新发胃癌病例数目以及死亡数目分别占全球的43.9%与48.6%,分列我国恶性肿瘤发病的第三位以及死因的第三位,提示我国胃癌防治形势的严峻。胃癌是一种由多因素导致的疾病,环境以及遗传因素共同发挥作用。胃癌发病的危险因素大致可以归纳为年龄与性别、种族、感染与微生物群失调、饮食习惯、生活方式、疾病史与药物使用、社会经济地位、职业暴露以及遗传倾向与家族史等方面,识别这些潜在的可改变因素使预防和控制胃癌成为可能。同时,现代生物信息学测序技术迅猛发展并日趋成熟,使得从肿瘤基因组学层面深入解析胃癌病因特异模式成为可能。肿瘤基因组突变包括可遗传至子代、突变发生在全身组织的胚系突变(易感突变),以及不具有遗传特征、突变只发生在肿瘤组织中的体细胞突变(驱动突变)。胚系突变在家族性肿瘤的发生过程中有着重要作用;而体细胞突变是驱动肿瘤发生的必要条件,且不同体细胞突变“亚型”可能与不同环境因素暴露(如理化因素、微生物感染、危险因素暴露等)存在对应关联。目前,体细胞突变假说是世界范围内被普遍接受的肿瘤发生机制,已有研究借助下一代测序技术,从基因组学水平上评估胃癌体细胞突变情况、绘制体细胞突变图谱与识别突变特征,并进一步解析胃癌体细胞突变的“亚型”,为揭示胃癌病因以及胃癌靶向治疗提供了重要理论依据。此外,环境危险因素暴露通常在肿瘤基因突变图谱上留有印记(即突变特征)。突变特征反映了肿瘤体细胞突变过程中的物理、化学以及生物学因素暴露的特性,为揭示肿瘤发生的病因开辟了新的研究思路。目前,胃癌的病因学研究尚有诸多问题亟待解决:(1)传统危险因素探索并不足以解释胃癌发病的全部原因,新的危险因素尚不明确,探索胃癌的危险因素仍旧是当下的重点研究方向;(2)体细胞突变是包括胃癌在内绝大多数肿瘤发生的关键机制,通过高通量测序技术,能够从肿瘤基因组角度解析胃癌体细胞突变“亚型”,这已成为胃癌基因组学研究的热点,但研究结果仍需进一步丰富;(3)不同的危险因素暴露与特定的肿瘤基因组体细胞突变类型以及突变特征密切相关,但胃癌危险因素暴露与不同胃癌体细胞突变“亚型”之间存在何种关联尚需进一步探索与解析。基于上述问题,本课题组前期在上消化道肿瘤高发地区泰兴市建立研究基地,设计与实施了一项基于人群的病例对照研究,并已完成该地区上消化道肿瘤病例与匹配对照的暴露因素采集与生物样本收集工作。基于此项前期工作,本研究拟对胃癌多种危险因素进行评估,并从多维度深入解析新识别的潜在危险因素-口腔卫生相关危险因素暴露与胃癌患癌风险的关系;同时,通过全外显子组测序技术,描绘胃癌体细胞突变类型、构建突变图谱与识别突变特征,从肿瘤基因组层面深入解析胃癌不同体细胞突变“亚型”;此外,结合前期收集的危险因素暴露信息,进一步探索不同胃癌体细胞突变“亚型”与胃癌危险因素暴露之间的潜在关系,解析危险因素暴露是否经由特定体细胞突变最终导致胃癌发生。本研究结果能够为胃癌高发地区人群预防策略的制定提供有力的科学依据,并为胃癌的病因学研究以及精准治疗提供重要的理论支撑。研究目的1.对胃癌多种危险因素进行评估,并从多维度深入解析新识别的潜在危险因素-口腔卫生相关危险因素暴露与胃癌患癌风险的关系;2.通过全外显子组测序技术,描绘胃癌体细胞突变类型、构建体细胞突变图谱与识别突变特征,从肿瘤基因组学层面全面解析胃癌不同体细胞突变“亚型”;3.结合收集的各项危险因素暴露信息与全外显子组测序结果,探讨不同胃癌体细胞突变“亚型”与胃癌危险因素暴露之间的潜在关系,解析危险因素暴露是否经由特定体细胞突变最终导致胃癌发生。研究方法1.胃癌的危险因素识别在评估危险因素暴露对胃癌患癌风险的影响时,数据来自于本课题组前期在上消化道肿瘤高发地区(泰兴市)所构建的一项基于人群的病例对照研究。2010年10月至2013年9月,从泰兴市当地四家最大的医院与癌症注册登记报告系统收集所有新发胃癌病例组成病例组;并从当地人口登记注册系统中采用频数匹配法(性别和每5岁年龄组进行匹配)随机抽取研究对象组成对照组;由培训合格的当地调查员进行问卷信息收集(包括一般人口学资料、职业与家庭社会经济地位、吸烟饮酒、口腔卫生、家族史等),并采集生物学样本(如血液、肿瘤组织等)。使用幽门螺旋杆菌(Helicobacterpylori,H.pylori)IgG抗体检测试剂盒(蛋白芯片)对两组血清标本进行检测。对病例组和对照组的基本特征和暴露因素进行统计学描述,采用秩和检验和卡方检验进行单因素统计分析。非条件logistic回归模型用于评估危险因素暴露与胃癌患癌风险的比值比(Oddsratio,OR)和95%置信区间(Confidenceinterval,CD)。在评估口腔卫生与胃癌患癌风险时,为评价年龄、性别、吸烟、饮酒和H.pylori感染对口腔卫生-胃癌患癌风险的修饰效应,本研究进一步应用相乘交互作用模型进行交互作用分析;同时,本研究排除从当地癌症登记处招募的胃癌病例后,通过敏感性分析评估潜在偏倚对研究结果带来的影响。以P<0.05(双侧)认为具有统计学意义,使用SAS 9.4软件进行统计学分析。2.胃癌体细胞突变图谱与突变特征识别研究所用的样本均来自于课题组前期于上消化道肿瘤高发地区建立的以人群为基础的病例对照研究。选取100例胃癌病例的肿瘤组织石蜡切片及对应外周血DNA,进行全外显子组测序。全外显子组测序的整个实验流程包括样本DNA提取、文库构建以及上机测序三个方面的内容。测序完成后,对获得的原始下机数据(Raw data)基于UCSC的参考基因组(hg38),进行生物信息学分析,识别体细胞突变信息,基本原理为:(1)测序完成后,分别将病例肿瘤组织以及对应外周血测序结果与人类参考基因组进行比对,此时肿瘤组织识别的突变包含胚系突变(Germline mutation)与体细胞突变(Somatic mutation)两种突变信息;而外周血识别的突变仅包含胚系突变。(2)通过对两组测序结果进行比对,可过滤掉胚系突变,进而识别出体细胞突变。生物信息学分析具体方法如下:(1)使用FastQC软件对两组原始数据(Raw data)进行质控与过滤。(2)过滤后的数据(Cleandata),使用BWA软件(Burrows-Wheeler Alignment Tool)与参考基因组进行比对(UCSC,hg38),同时进行排序以及过滤。(3)使用GATK4.1 mutect2软件,进行样本的体细胞变异检测与过滤,寻找体细胞突变的SNP和InDel。在进行体细胞变异筛选过程中,除基本的过滤筛选条件外,针对石蜡组织样本测序可能带来的碱基偏好问题,使用LearnReadOrientationModel对结果进行矫正。(4)使用ANNOVAR软件对识别的体细胞SNP、InDel位点进行注释,确定突变位点对应的基因信息。对注释后的体细胞突变信息进一步筛选过滤后,使用MATLABR2019b软件运行MutSigCV 1.41鉴别显著突变基因;同时,使用R软件(版本3.6.3)ggplot2、maftools、ggfortify、Biostrings、NMF以及sigminer等软件包对体细胞突变进行可视化分析与突变特征分析3.胃癌危险因素暴露与胃癌体细胞突变间的关联基于本研究前面收集的详细胃癌危险因素暴露与临床特征信息、全外显子组测序识别的胃癌体细胞突变信息,进一步评估胃癌危险因素暴露(年龄、性别、吸烟、饮酒、H.pylori感染与口腔卫生等)及临床特征信息(Lauren分型、TNM分期)与不同胃癌体细胞突变“亚型”(碱基突变类型、突变基因以及突变特征)之间的关系。使用R软件(版本3.6.3)进行统计学分析。采用均数、标准差以及四分位数描述不同胃癌危险因素暴露下6种影响蛋白质功能的体细胞碱基突变类型的突变比例,同时进行正态性检验;在进行年龄与碱基突变类型关联性分析时,采用Pearson相关分析。在进行其他胃癌危险因素暴露与碱基突变类型关联性分析时,两组比较使用Wilcoxon秩和检验;多组比较使用Kruskal-Wallis秩和检验,其中两两比较采用Bonferroni法(取矫正后P值)。在进行胃癌危险因素暴露与胃癌体细胞高频突变基因及显著突变基因关联性分析时,均采用Fisher确切概率法进行统计学检验。在进行胃癌危险因素暴露与胃癌体细胞突变特征关联性分析时,采用非条件logistic回归进行单因素与多因素分析,并使用R软件的forestplot包绘制多因素分析结果的森林图。研究结果1.危险因素暴露与胃癌患癌风险关系排除危险因素暴露信息不全者,本研究共有901例胃癌病例和1972例对照被纳入最终的统计学分析。胃癌家族史、H.pylori感染、年龄、受教育水平、财富得分、饮酒以及调查时10年前BMI(Body mass index)与胃癌患癌相关。牙齿缺失与胃癌患癌风险增加无显著相关性(OR=1.08;95%CI=0.88-1.33),但补牙颗数的增加与胃癌患癌风险呈显著正相关。与每天刷牙≥2次相比,每天刷牙≤1次者胃癌患癌风险显著增加(OR=2.39;95%CI=1.94-2.94)。口腔卫生指标与年龄、性别、吸烟、饮酒、H.pylori感染在胃癌患癌中无显著交互作用。2.胃癌体细胞突变图谱与突变特征100例胃癌病例全外显子组测序共识别出73,518个体细胞突变事件,其中,SNP 识别最多,有 62,354 个(占比 84.8%);错义突变(Missensemutation,57,223个,占比77.8%)是最主要的突变类型;6种碱基突变类型中以C>T突变类型最多,为22,640个(占比36.3%)。应用MutSigCV算法共鉴别出2个与胃癌相关的显著突变基因,分别为TP53(突变频率为56%)以及COL4A3(突变频率为10%),其中COL4A3是新识别的胃癌潜在显著突变基因;同时,本研究识别出23个胃癌高频突变基因与86个胃癌频发体细胞突变,初步完成胃癌体细胞突变图谱的构建。此外,本研究识别出3个胃癌体细胞突变特征,分别对应于COSMIC数据库中的 Signature 1(Cosine 系数=0.892)、Signature 3(Cosine 系数=0.744)以及 Signature 5(Cosine 系数=0.865)。3.胃癌危险因素暴露与胃癌体细胞突变间的关联根据上述胃癌体细胞突变信息把胃癌分成不同“亚型”,分析胃癌危险因素暴露与胃癌体细胞突变“亚型”的关联,结果显示:相比较年龄60岁以下的患者,年龄>60岁者中C>T突变比例较高(P=0.025)、T>A突变比例略低(P=0.045);吸烟者及吸烟强度较高者的T>A突变比例略低(P=0.035),有烟草暴露者C>G突变比例略低(P=0.043);相比弥漫型胃癌患者,肠型胃癌患者的T>C突变比例略低(P=0.047);相比较于Ⅰ期患者,Ⅱ/Ⅲ/Ⅳ期患者C>A突变比例略低(P=0.037)、T>C(P=0.035)与T>G(P=0.043)突变比例显著增多。进一步分析胃癌危险因素暴露与胃癌高频及显著突变基因间的关系,结果显示,年龄大于60岁者TP53基因(P=0.048)与DNHD1基因(P=0.043)突变比例显著升高;有烟草暴露者OBSCN基因突变比例显著降低(P=0.026);FSIP2基因(P=0.041)、HMCN2基因(P<0.001)及DNAH2基因(P=0.021)的突变比例在不同TNM分期中存在显著性差异。此外,本研究对导致Signature5胃癌体细胞突变特征产生原因进行深入分析,结果显示在调整其他危险因素后,烟草暴露与Signature5突变特征产生显著相关,有烟草暴露者产生Signature 5的风险增加约5倍(OR=5.09;95%CI=1.06-24.48)。研究结论1.除已知危险因素(胃癌家族史、H.pylori感染、年龄、受教育水平、财富得分、饮酒以及调查时10年前BMI)外,不良的口腔卫生习惯及口腔健康状况与胃癌患癌风险之间存在相关性。2.根据全外显子组测序结果,本研究初步构建胃癌体细胞突变的图谱,识别出TP53以及COL4A3两个胃癌显著突变基因,其中COL4A3是新识别的胃癌潜在显著突变基因;同时,通过突变特征分析识别出3个胃癌体细胞突变特征,分别对应于COSMIC数据库中的Signature 1、3与5。3.胃癌体细胞突变的碱基突变类型、高频突变基因与胃癌危险因素暴露之间存在一定关联;同时,本研究发现胃癌体细胞突变特征Signature5与烟草暴露显著相关,即有烟草暴露者产生Signature 5的风险增加约5倍。创新性1.本研究基于前期严格建立的基于人群的病例对照研究设计,对多种危险因素与胃癌患癌关系进行评估,并对新识别的潜在危险因素-口腔卫生与胃癌患癌关系进行多维度深入解析。2.采用全外显子组测序技术,本研究从肿瘤基因组学层面构建胃癌体细胞突变图谱,识别胃癌体细胞突变特征,进而解析胃癌不同体细胞突变“亚型”,为其药物靶向治疗提供理论基础。3.本研究充分探讨胃癌危险因素暴露与不同胃癌体细胞突变“亚型”间的潜在关联,解析危险因素暴露是否经由特定体细胞突变最终导致胃癌发生,研究结果为胃癌病因学研究提供了新的可借鉴的研究思路与方法。