论文部分内容阅读
研究背景和目的癌症是一种异质性很强的疾病。临床上具有相似相近分期分型的癌症患者对于治疗的反应存在差异,预后情况也参差不齐。基于基因表达谱的分子分型在多种肿瘤中已有报道。同一种肿瘤的不同分子亚型的预后情况,对药物治疗的反应,对远处转移位点的偏好等等都存在差异。对不同分子亚型可能需要采取不同的治疗方案。鼻咽癌是一种在东南亚地区高发的癌症,主要为非角化型鳞癌。鼻咽癌在临床上的表现具有异质性。目前,以鼻咽癌分子亚型为主题的研究尚未见报道。尽管有研究认为鼻咽癌中不存在分子亚型,但是本课题组认为:该研究使用了较早版本的芯片注释文件,探针集的注释可能存在较多的错误;另外,该研究的聚类分析是基于芯片上所有的的探针集,受噪声影响可能较大。目前,公共数据库中可利用的鼻咽癌基因表达谱有56例,本研究新增25例,这为鼻咽癌分子分型提供了条件。如果能够确认鼻咽癌分子亚型的存在,很有可能对鼻咽癌的发生发展提供新的认识,对诊断与治疗起到指导作用。方法1.基因芯片数据本研究主要分析了三组不同来源的基因表达谱数据集。其中部分数据下载自公共数据库GEO,包括GSE12452(31例鼻咽癌及10例正常鼻咽上皮组织)和GSE13597(25例鼻咽癌及3例正常鼻咽上皮组织)。此外,本课题组新增了25例鼻咽癌及8例正常鼻咽上皮组织的芯片数据。此外,EB病毒编码基因在GSE12452中31例鼻咽癌组织的表达情况(QRT-PCR数据来自原作者)也被纳入我们的分析。2.聚类分析我们采用了无监督等级聚类算法(unsupervised hierarcahical clustering),自组织图聚类算法(self-organized map), K-means聚类算法分别对GSE12452的41例芯片数据和GSE13597的28例芯片数据进行了聚类分析。3.筛选差异表达基因及标签基因的比较我们首先比较了亚型之间的基因表达谱,用SAM算法对每个基因之间差异表达的显著程度进行了评估。我们还将各个鼻咽癌分子亚型单独与正常鼻咽上皮基因表达谱用SAM算法进行比较。4.基因集富集分析(Gene Set Enrichment Analysis)我们使用基因集富集分析(GSEA)对鼻咽癌亚型之间的生物学差异进行了比较。在分析之前将表达谱数据转换成GSEA软件能识别的格式,并将基因表达值转换成线性值(linear-scale)。我们使用了GSEA提供的来自已发表文献的数千个标签基因集进行分析。5.鼻咽癌分子亚型基因预测器的构建构建分子亚型预测器使用的是经过Combat处理的GSE12452与GSE13597数据集。本分析使用了Gene Pattern平台中的WeightedVotingXValidation以及WeightedVoting模块。首先以GSE12452为训练集(31例样本),每次取出一例样本,根据剩余的30例样本,筛选出50个预测器基因(此过程即为交叉验证,cross-validation),并用于对预先排除在外的样本的类别归属进行判定。挑选在所有31轮预测中均被选中的基因,得到一个基因列表,此分析由WeightedVotingXValidation模块完成。作为验证,再将上述所得基因作为预测器,使用WeightedVoting模块中对GSE13597中的鼻咽癌样本类别归属进行预测。6.转录调控网络构建我们使用软件ARACNe构建转录调控网络。首先将91例芯片数据整合然后用combat软件处理批次效应。从数据库animalTFDB下载转录因子列表。在ARACNe分析之前,对基因根据其表达值的变异程度进行了筛选,只保留具有一定波动的基因。在ARACNe分析中,选用了高斯核估计(Gaussian kernel estimator)用于交互信息的计算,并将MI值的阈值设置为p值不超过0.05,对DPI分析的容忍度设置为0%。为了使MI值的估算更加准确,做了100次的自举(bootstrap),并通过一致性投票(consensus voting)确定最终的转录调控关系。采用fisher精确性检验评估各个转录因子的预测靶基因与鼻咽癌分子亚型标签基因之间的重叠是否具有统计学显著性。7.蛋白质-蛋白质相互作用网络构建我们将鼻咽癌亚型标签基因提交到网站STRING,提取标签基因蛋白产物之间的相互作用关系。为了验证在标签基因之间的蛋白质蛋白质相互作用是否是随机出现的,我们还随机抽取了1000组相同数目的基因上传到STRING作为对照。8.竞争内源性RNA (ceRNA)网络构建我们首先从数据库starbase下载了microRNA与靶基因的作用对。参考了Pandolfi等人工作的方法,我们构建了一个竞争内源性RNA网络,并提取鼻咽癌亚型标签基因之间的ceRNA关系。9.药物预测我们使用在线生物信息学工具连接图谱(connectivity map)对鼻咽癌亚型的标签基因进行了分析,将药物的标签基因表达模式与鼻咽癌亚型的标签基因表达模式进行比较,从而预测可能对鼻咽癌起治疗作用的药物。结果1.鼻咽癌分子亚型及其生物学差异基于上述数据发现鼻咽癌中存在至少两种分子亚型。该分型与TNM分期无关。Ⅰ型鼻咽癌表达谱与正常鼻咽组织接近。基因集富集分析发现Ⅰ型鼻咽癌可能呈现免疫反应显著,病毒载量低,细胞增生和肿瘤干细胞富集程度可能较低,转移能力可能较低,预后可能较好;Ⅱ型鼻咽癌可能呈现免疫反应缺失,病毒载量高,细胞增生和肿瘤干细胞富集程度可能较高,转移能力可能较强,预后可能较差。在将两种亚型单独与正常鼻咽上皮基因表达谱比较的基础上,我们推测Ⅱ型鼻咽癌可能是工型鼻咽癌受到EB病毒载量增加的影响,发展恶化所得。一共有29个基因被选中作为鼻咽癌亚型的预测基因。2.鼻咽癌分子亚型转录调控网络我们将转录因子按照其调控的鼻咽癌亚型标签基因数量排序,靶基因与Ⅰ型标签基因显著重叠的转录因子中,前四位转录因子SP140, IRF8,KLF2和STAT4一共调控了69%Ⅰ型鼻咽癌标签基因;靶基因与Ⅱ型标签基因显著重叠的转录因子中,前六位转录因子KLF2, DNAJC2, FOXM1, HMGB2, MYC和ZNF146一共调控了70%Ⅱ型的鼻咽癌标签基因。3.鼻咽癌分子亚型蛋白质-蛋白质相互作用网络我们发现158/327个Ⅱ型标签基因参与了249对蛋白质-蛋白质相互作用,117/351个Ⅰ型标签基因参与了222对蛋白质=蛋白质相互作用。在1000次随机抽取相同数量基因所得的蛋白质-蛋白质相互作用网络中,平均有42/327个随机抽取基因参与了30对蛋白质-蛋白质相互作用,以及平均有43/351个随机抽取基因参与了31对蛋白质-蛋白质相互作用。其中,CDK1与25个Ⅱ型标签基因有相互作用,是Ⅱ型网络中的枢纽。4.鼻咽癌分子亚型竞争内源性R,NA网络我们构建了一个由1506个基因及48338个相互作用组成的无向ceRNA网络。22个Ⅱ型标签基因参与了38对相互作用,其中,WEEl参与了20对相互作用,是Ⅱ型鼻咽癌ceRNA网络的枢纽。5.鼻咽癌治疗药物的预测Thioridazine是一种已知的多巴胺受体拮抗剂,已被作为抗精神病药物。连接图谱分析预测其可能具有针对Ⅱ型鼻咽癌的治疗作用。结论通过对81例非角化型鼻咽癌和21例正常鼻咽上皮组织的基因表达谱,以及EB病毒编码基因的QRT-PCR数据的分析,我们发现非角化型鼻咽癌可以分为(至少)两类。Ⅰ型鼻咽癌有较低的EBV载量,可能有较强的免疫相应和较好的临床预后。Ⅱ型鼻咽癌有较高的EBV载量,可能呈现免疫逃逸的状态,可能具有较强的增殖趋势和较高的远处转移风险,可能具有较高的肿瘤干细胞含量。总体上,Ⅱ型鼻咽癌的恶性程度较高,而这种情况可能是由EBV的载量引起的。这也就解释了为什么血清EBV/DNA抗体滴度是目前非角化型鼻咽癌在临床上早期诊断唯一有效的标志物,也提示了抗病毒治疗在非角化型鼻咽癌中可能具有的前景。我们对亚型的标签基因构建了转录调控网络,蛋白质-蛋白质相互作用网络及竞争内源性RNA网络,这些结果表明鼻咽癌分子亚型的标签基因不是一个随机出现的结果,而是作为一个整体以一种网络的方式共同参与了鼻咽癌的发生发展并且塑造了两种亚型的生物学特点。这些分子网络中的枢纽,比如CDK1, FOXMl以及WEE1等等,都可能在今后作为鼻咽癌治疗的重要靶点,值得进一步的研究。而我们预测的药物,Thioridazine,也值得进一步考察其是否对鼻咽癌具有治疗功能。我们必须承认,本研究具有一定的局限性:1)缺乏临床预后数据的支持,无法明确所得鼻咽癌分子亚型是否有预后上的差异。2)缺乏实验的支持,无法验证所构建的各个分子网络的枢纽基因在鼻咽癌中具体的生物学意义,同时,也无法排除样本中所含有的非癌组织对分型的影响。