论文部分内容阅读
目的:口腔鳞状细胞癌(Oral Squamous Cell Carcinoma,OSCC)是发生率最高的恶性肿瘤之一。其侵袭性强,进展快,低分化OSCC患者往往5年生存率低,预后较差。肿瘤标志物作为能够反映肿瘤发生、发展情况以及治疗效果的检测指标,能够为OSCC的早期诊断提供帮助。随着OSCC发生率和致死率的逐年提升,寻找高效率的特异性标志物,成为OSCC研究的热点。生物信息学作为一项新兴学科,可以作为挖掘肿瘤标志物及其背后意义的重要工具。本课题旨在运用高通量测序技术结合生物信息学手段,探究潜在标志物SPRR3的OSCC诊断及预后意义,评估SPRR3作为OSCC诊断及预后标记物的价值,为OSCC的诊断和治疗提供参考。方法:1.临床样本的采集,处理与分析(1)分别收集3组OSCC患者的癌组织及癌旁组织样本,3组样本均取材自山东大学口腔医院,患者的诊断均基于其病理活体组织检查。(2)使用TRIzol试剂盒,从3对组织中分别提取mRNA,以人基因组hg19作为参照,对基因文库进行配对测序,得到在3组患者中差异表达均显著的基因 DEGs。(3)对 DEGs 进行 Gene Ontology(GO)及 Kyoto Encyclopedia of Genes and Genomes(KEGG)Pathway富集分析,了解这些基因的蛋白产物可以被注释于生物学功能、通路和疾病谱中,这些功能通路是否与口腔鳞癌的发生发展密切相关。2.公共数据库中的数据处理(1)GEPIA工具提供线上生物信息学分析的功能,利用GEPIA得到TCGA数据库中基因的头颈鳞癌/正常组织差异表达分析数据。(2)下载GEO数据库中GSE3524,GSE30784,和GSE42743 口腔鳞癌数据集,利用生物信息学方法获得其标准化的基因表达数据。(3)下载TCGA数据库中口腔鳞癌样本及其对照样本的基因表达数据,利用生物学方法获得标准化的基因表达数据。3.蛋白互作网络的构建及模块分析为了研究DEGs在口腔鳞状细胞癌中的作用和分子机制,我对符合筛选条件的DEGs构建了蛋白互作网络,并通过(Molecular complex detection,MCODE)评分,筛选评分最高的两个模块作为目标模块。4.统计学方法(1)根据差异表基因表达水平进行分组,使用SPSS软件构建Cox 比例风险回归模型,对TCGA数据库与GEO数据库中可能影响OSCC患者预后因素及基因进行单因素Cox回归分析,筛选对OSCC患者生存时间相关的预后因子。(2)建立LASSO回归模型,线性模型拟合的同时进行了变量选择和正则化,通过构建惩罚函数,减少Cox回归模型的过拟合所带来的误差,从而选择表达水平与患者生存时间相关的预后因子进行进一步研究。(3)将TCGA数据库中头颈鳞癌患者的生存信息与患者的基因表达信息进行匹配,得到基因的相对表达量。并按照目标基因表达量分组,进行Kaplan-Meier生存分析,检验目标基因是否与患者预后显著相关。(4)为了评估目标基因的诊断准确性,将基因的表达水平纳入受试者工作特征(ROC)曲线分析。该曲线是诊断检测或疾病状态的生物标志物预测的重要工具。曲线下面积(AUC)的值定义了基因区分肿瘤组织与邻近组织的能力。(5)将TCGA中的OSCC样本按照目标基因表达量的四分位数分为高表达组和低表达组两组,利用x 2检验来验证基因表达水平和各临床病理的因素之间的相关性。(6)利用Pearson相关性分析在TCGA-OSCC数据集以及GSE30784两个数据集中计算目标基因与模块中其他基因的相关性,并计算目的基因与在所富集功能中关键基因之间的相关关系,以猜想目标基因影响口腔鳞癌发生发展的途径。5.免疫组织化学染色方法检测目的分子表达利用61例OSCC患者肿瘤组织及10例正常对照(癌旁)组织构建的组织芯片,免疫组织化学染色检测目的基因在OSCC癌及癌旁组织中的蛋白表达水平。6.基因探针富集分析(Gene-set enrichment analysis,GSEA)分别利用高通量测序6个样本(3个OSCC+3正常对照)的基因表达数据,和TCGA数据库中OSCC数据集的335个样本(306例OSCC+29例正常对照)的基因表达数据,对目的基因进行GSEA富集分析。结果:1.差异基因的筛选(1)通过高通量Poly-A测序,共筛选出229个差异表达基因,其中上调基因85个,下调基因144个。(2)229个DEGs的GO富集分析显示,它们主要富集在上皮形成,细胞粘附以细胞迁移及代谢等生物学进程中,KEGG和GSEA富集分析均显示DEGs富集于多种与肿瘤发生发展密切相关的进程中。以上结果表明,DEGs与OSCC的发展可能存在密切联系。(3)通过构建PPI蛋白互作网络,以MCODE算法,根据模块评分筛选出大小和连接度符合标准的潜在功能模块,模块1和模块2。(4)对模块中的核心基因分别进行GO富集分析,根据模块评分以及所富集功能,选择模块1作为目标模块进行研究。(5)利用GEPIA工具检测模块1中8个基因在mRNA水平的相对表达量,进而筛选到5个在TCGA数据库中明显差异表达的候选基因,并利用GSE3524和GSE42743数据集,验证五个基因的差异表达情况。(6)为了筛选OSCC预后标志物,将GSE42743中可能影响OSCC患者预后的指标纳入单因素Cox 比例风险模型,SPRR3与初期疗效可以作为预测患者预后情况的指标。(7)因数据库样本量较大,为防止Cox回归分析模型过拟合,在此基础上我利用LASSO回归分析在GSE42473数据集中进行再次筛选,并将LASSO回归中的阳性指标纳入Cox多因素回归模型中,以消除混杂因素的影响。最终筛选得到目标基因SPRR3,其可以作为独立作为OSCC患者的预后标志物。(8)为了进一步验证结果的准确性,我在TCGA数据库OSCC数据集中,利用同样的方法,同样筛选出SPRR3。并且SPRR3在多种肿瘤组织中存在异常表达,而SPRR3在OSCC领域中却鲜有报道,故将其作为本研究的候选基因。2.目标基因的验证(1)通过GSE42743以及TCGA数据库OSCC数据集中进行Kaplan-Meier生存分析,根据SPRR3的表达量进行高低分组,两个数据集中Log-Rank P<0.05,SPRR3高表达组的5年生存率明显高于SPRR3低表达组,我初步认为SPRR3可以作为OSCC的潜在预后标志物。(2)在GSE30784和TCGA数据库OSCC数据集中对SPRR3的表达水平进行ROC曲线的构建,计算AUC,并证明SPRR3对OSCC患者的诊断有积极意义。(3)按照患者是否饮酒,组织学分级Ⅰ、Ⅱ、Ⅲ级,NO、非NO,是否有淋巴管侵犯,及是否有周围神经侵犯将样本分组,对各组样本SPRR3的表达进行方差分析,发现饮酒患者,组织学分级高者,非NO患者,有淋巴及周围神经侵犯的患者,其样本中SPRR3的表达水平相对较低。(4)对TCGA数据库OSCC数据集中的样本按照SPRR3的表达水平,按照四分位数分组,将样本分为SPRR3高表达组和低表达组,x2检验显示,SPRR3的低表达与饮酒、组织学分级、N分期、淋巴血管侵犯和神经周围侵犯显著相关。(5)免疫组化染色显示,在OSCC组织中,SPRR3蛋白表达水平随肿瘤病理分级的升高而降低。(6)GSEA分析显示,SPRR3富集在多种代谢进程中,除此之外,SPRR3还富集于上皮形成这一生物学进程,以及与K-Ras信号通路下调,VEGF等信号通路等相关。(7)利用GSE30784和TCGA-OSCC数据集中的基因表达水平,对模块1、2中核心基因,与SPRR3进行Pearson相关性分析,发现SPRR3与模块1中的基因表达呈正相关,与模块2中的基因呈负相关。(8)SPRR3与细胞粘附,促进肿瘤转移的和EMT过程中的关键因子,以及酒精代谢因子之间存在共表达关系,进一步证明SPRR3在肿瘤的发生与发展过程中起到关键作用。结论:在我的研究中,我利用基因测序的方法来检测OSCC中SPRR3的差异表达情况,并通过生物信息学方法进行验证。此外,SPRR3可能是一种潜在的从正常粘膜中识别OSCC的生物标志物,其低表达可能预测OSCC患者的预后。因此,本研究结果将为口腔鳞癌的诊断和预后提供一个全新的方向和策略。