论文部分内容阅读
目的:头颈部癌是全球常见的肿瘤之一,涉及颈部、耳鼻喉以及口腔颌面三大部位,其原发部位之多居全身肿瘤之首。鳞状细胞癌(以下简称头颈部鳞癌)是头颈部癌的主要病理组织学类型,占比超过90%。并且,在全世界范围内,头颈部鳞癌约占每年新诊断肿瘤病例的8%。来自不同部位的头颈部鳞癌具有相似的流行病学特征及临床治疗策略,其中放射治疗是头颈部鳞癌重要的治疗方式之一。 但在临床实践中,不是所有的头颈部鳞癌患者都对放疗比较敏感。即使在临床期别、病理分级、肿瘤体积、淋巴转移等临床病理因素等都相同的条件下,头颈部鳞癌患者之间的放疗效果也存在较大差别,仍有相当数量的患者在放疗后出现残灶、局部复发和远处转移等疾病进展,预后不良。这表明不同个体头颈部鳞癌的放射敏感性存在显著不同,可能因肿瘤细胞内源性放射抵抗所致。近年来,全球的研究人员开展了较多的头颈部鳞癌放射敏感性相关研究,获得的研究发现增进了人们对其分子机制的理解,但有些结果仍然存在争议,关于头颈部鳞癌放射敏感性的具体机制仍不清楚。因此有必要从新的视角进一步详细研究,探讨头颈部鳞癌的放射抵抗分子机制。 本研究通过文本挖掘技术和基因表达分析技术对头颈部鳞癌的放射敏感性进行生物信息学分析,抽取文献中的相关基因,预测新的候选基因,筛选放射抵抗和放射敏感组头颈部鳞癌细胞系基因芯片的差异表达基因,构建蛋白质相互作用网络,并进行基因功能富集,以识别出头颈部鳞癌放射敏感性相关的重要基因,阐明相关的分子机制,为进一步开展头颈部鳞癌放射敏感性研究及开发与应用靶向放射增敏药物提供新思路。 研究方法:本研究从文本挖掘和基因表达芯片数据分析两个方面对人类头颈部鳞癌放射敏感性开展生物信息学分析。 (1)利用文献挖掘人类头颈部鳞癌放射敏感性相关基因:首先,利用PubMed数据库检索人类头颈部鳞癌放射敏感性相关基因的文献。应用PubTator工具对题目文摘中的基因进行标识后,利用自编的R程序提取标识后的基因和相应文献的PMID号;另一方面,对利用高通量技术进行研究的文献,将其全文相关表格中的基因进行人工抽取。应用HPRD和BioGRID数据库查询抽取基因编码的蛋白质间相互作用关系对,导入Cytoscape软件中构建基因编码蛋白质相互作用网络,根据CentiScaPe2.1插件计算网络拓扑结构参数,分析网络拓扑结构,根据4个网络拓扑结构度量指标(度、介数、接近中心性、特征向量中心性)找出编码网络中重要节点蛋白质的关键基因;采用DAVID在线工具对提取的全部相关基因和关键基因分别进行GO功能和KEGG通路富集分析。将提取的头颈部鳞癌放射敏感性相关基因编码蛋白质作为种子,根据最近邻居扩增法,构建蛋白质相互作用网络,挖掘新的头颈部鳞癌放射敏感性候选基因,对通过扩大的网络预测得到的排秩靠前的候选基因进行GO功能和KEGG通路富集分析研究,来进一步考证其与头颈部鳞癌放射敏感性的相关性。 (2)对人类头颈部鳞癌细胞系放射敏感性基因表达芯片进行整合分析:在GEO数据库中检索人类头颈部鳞癌细胞系放射敏感性基因表达芯片研究系列,下载数据集。本研究共纳入4个数据集(GSE9712、GSE9713、GSE9714和GSE48501),涉及两种芯片平台、SCC-61和CNE2两个细胞系。用R软件affy包的MAS5算法对原始芯片进行预处理,获得基因探针的原始表达值,然后进行以2为底的对数转换。因本研究纳入了不同平台的芯片数据,故对每个基因探针经对数转化的表达值进行全局标准化,分别在各个研究数据集中将其转化为z-分数。对放射抵抗组和放射敏感组的头颈部鳞癌样本的每个基因的z-分数执行t检验,选取Benjamini andHochberg法校正后P值<0.05为显著性阈值,识别差异表达基因。在R软件中使用pheatmap程序包绘制差异表达基因z-分数—样本的双聚类热图,可视化样本被差异表达基因分类的效果。应用HPRD和BioGRID数据库,一方面筛选差异基因编码蛋白质间的相互作用关系对,另一方面筛选差异基因编码蛋白质与整个基因组范围内蛋白质间的相互作用关系对。用Cytoscape构建差异基因编码蛋白质相互作用网络图,找到重要的节点基因;构建差异基因编码蛋白质相关的蛋白质相互作用网络,并利用Cytoscape的插件ClusterONE进行模块聚类分析,获得重要的功能模块及中心基因。采用DAVID工具对差异表达基因以及显著功能模块的基因分别进行GO功能和KEGG通路富集分析,理解基因的作用机制。 结果:(1)本研究共纳入551篇人类头颈部鳞癌放射敏感性基因研究的文献,抽取到534个头颈部鳞癌放射敏感性基因。这些基因编码蛋白质相互作用网络图共包含457个节点,3198个边,发现了TP53、HSP90AA1、EGFR、EP300、BRCA1等39个关键基因,通过富集分析发现涉及PI3K-Akt信号通路、HIF-1信号通路、局部粘附等生物学通路和功能术语。此外,通过扩展的蛋白质相互作用网络分析,新挖掘出NTRK1、ELAVL1、ESR1、APP、NR3C1等139个候选基因。(2)通过对GEO数据库的4个头颈部鳞癌细胞系放射敏感性基因表达数据集的整合分析,获得STC2、NMI、LIMCH1、STAT1、DCN、NR3C1等175个差异表达基因,聚类热图显示这些基因可以明显地将样本划分为放射抵抗和放射敏感两个组别。其中DCN、FAS、STAT1、AREG等11个(6.29%)差异表达基因已有文献报道;5个(2.86%)差异表达基因也是通过文本挖掘预测出的新基因,具体为NR3C1、YWHAB、CAND1、HNRNPD、SMARCA4。通过差异表达基因编码蛋白相互作用网络发现,STAT1是连通度最高的蛋白质编码基因。构建的差异表达基因相关的蛋白质相互作用网络共含3641个节点、5587条边,模块聚类后,选取前10个显著的功能子模块进行分析,模块内中心节点基因依次为NMI、RCHY1、DCN、PDCD6、NR3C1、DNM1、TAB2、AP3S1、AFF4、MPDZ。差异表达基因及功能模块内基因富集的GO术语和KEGG通路主要与局部粘附、自噬调节、细胞凋亡等有关。 结论:(1)利用文本挖掘技术从PubMed数据库已发表文献中抽取基因,全面展示了现有头颈部鳞癌放射敏感性相关基因的研究现状,确定了39个关键基因,并挖掘出了新的候选基因。(2)对GEO数据库多个数据集和不同芯片平台的头颈部鳞癌细胞系放射敏感性基因表达数据的整合分析,识别出了放射抵抗和放射敏感组间的差异表达基因,并通过蛋白质相互作用网络聚类分析获得了重要的功能模块和中心节点基因。(3)将文献数据和基因表达数据分析结果相结合,有助于系统探究和深入剖析头颈部鳞癌共同的放射抵抗机制,发现了STAT1、DCN等基因是重要的差异表达基因,预测出NMI、NR3C1是潜在的重要候选基因,并发现局部粘附、PI3K-Akt信号通路等在头颈部鳞癌放射敏感性上发挥重要的作用,为头颈部鳞癌治疗选择以及探明放疗增敏药物的作用靶点提供了有力的参考。未来可以对筛选出的重要基因和通路开展深入的功能实验研究,进一步阐明头颈部鳞癌放射敏感性的具体机制。