论文部分内容阅读
研究背景卵巢癌是妇科最常见的恶性肿瘤之一,病死率居女性生殖系统恶性肿瘤之首,约占所有妇科恶性肿瘤的15%。据统计,在美国每年发病人数为2.5万,死亡达到1.6万,世界范围内每年死亡人数高达11.4万,严重危害了妇女的身体健康。由于卵巢癌具有起病隐匿、早期不易发现、易转移、预后差等特点以及缺乏早期诊断方法和有效的治疗方法,70%-80%的卵巢癌患者发现时已经发展到晚期,5年存活率仅为20%-30%,而早期卵巢癌患者的存活率可达90%。众所周知,相同的癌症在不同个体上的发病表现不同,相同的发病表现却需要不同的诊断和治疗方案;癌症的不同分期虽然反映了癌症的一些特性,同时也能帮助临床医生制定针对特定分期的治疗方案,但是由于分子水平的变化导致的个性差异性使得相同的病理分期用相同的治疗方案却得到了不同的治疗结果。这一现象的根本原因就是目前无论是科学家还是临床医生对特定癌症在人体内部发生、发展、转移的分子机制了解的不多,不能达到个体化治疗的阶段。应对这一问题的方法就是在大量临床样本的支持下,在癌症的某一分子水平上利用生物信息学的方法进行系统研究。染色体变异在肿瘤发生中被大量观察到,它包括结构变异和拷贝数变异。拷贝数变异在诸如在乳腺癌、前列腺癌、卵巢癌、肺癌、和头颈癌等多种肿瘤细胞中都很常见。多个研究表明,基因拷贝数变异在肿瘤的发生和发展中扮演着一个重要角色。在不同的肿瘤中,拷贝数变异的数量、大小和幅度都是非常不同的,并且可能反映肿瘤逃离正常保护细胞环境下的个体差异。探讨拷贝数变异有助于发现它们在卵巢癌中扮演的角色。使用高通量阵列比较基因组杂交芯片能够扫描卵巢癌基因组,识别多个畸变区域,深入研究位于这些拷贝数变异区域的基因可以发现它们在卵巢癌发生机制中的作用。肿瘤细胞的基因扩增是增加原癌细胞基因表达的一个重要的机制,而由于拷贝数缺失而下调的基因可能转换成关键的肿瘤抑制基因。为了更好地阐述卵巢癌的病因学和识别预后基因集,很多研究已经完成了基于微阵列的基因表达谱分析,同时在各自的数据集中识别了确实和卵巢癌生存率显著相关的基因集。但是在不同研究产生的基因集中只有少数的基因是相同的。这种不相符可能是由于基因表达分析是来自多个实验协议,不同的统计学方法或者不同类的特征排列方法。解决这一问题的一种可能的策略是分析同时发生基因表达和DNA水平变化(例如拷贝数变异)的基因。不同类型的基因拷贝数变异在基因表达上的影响是不同的。最近的研究表明,肿瘤中40%-50%的高度扩增基因同时也是表达上调基因;而缺失对表达下调的影响就不是很明显,主要是由于检测小的缺失所导致的表达下调对技术的挑战更大。总之,已经证明有10%-15%的基因表达变化是和拷贝数变化直接相关的。识别扩增和基因表达上调或者缺失和基因表达下调的关系也许可以发现导致肿瘤发病的关键变异。目的本课题的研究目的在于利用TCGA拷贝数数据找出卵巢癌中存在的拷贝数变异区域及基因,并选取其中显著扩增的基因在基因表达数据中寻找存在差异表达的基因。研究同时有拷贝数扩增和表达上调的基因对有拷贝数变异和没有拷贝数变异样本之间基因表达的影响,并且验证差异表达是否与拷贝数变异相关。方法为了研究卵巢癌的拷贝数变异,我们对从TCGA数据库上下载获得97例卵巢癌样本利用环形二元分割法(Circular Binary Segmentation, CBS)分割来获得每个样本中存在的拷贝数变异。然后为了从每个样本中识别出卵巢癌中具有统计学显著的拷贝数变异,我们利用GISTIC方法对由CBS分割获得97例样本的拷贝数变异片段进行统计学分析。通过GISTIC分析,我们可以获得卵巢癌中显著的拷贝数变异区域以及区域中包含的基因。从GISTIC分析获得的拷贝数变异区域中筛选出拷贝数扩增的基因,并在97例卵巢癌和8例卵巢组织样本的基因表达芯片数据中筛选出其表达值。利用微阵列显著性分析(Significance Analysis of Microarray, SAM)方法对拷贝数扩增基因在两类样本间进行差异表达分析,并从所有的差异表达基因中筛选出表达上调基因,从而获得同时存在拷贝数扩增和表达上调的基因。从GISTIC分析结果中筛选出同时存在拷贝数扩增和表达上调的基因在97例肿瘤样本中的拷贝数水平,并将它们分成有拷贝数扩增和没有拷贝数扩增两类,其中拷贝数缺失和没有拷贝数变异都认为是没有拷贝数扩增。利用SAM方法识别两类样本之间存在的差异表达基因,对差异表达基因和同时存在拷贝数扩增和表达上调的基因做Fisher精确检验,获得分子标签基因。在探讨分子标签基因过程中使用了基因富集分析的网络软件GATHER来考察标签基因的GO功能富集和KEGG相关通路富集。本研究中的环形二元分割分析和SAM分析使用R语言(windows系统2.15.3版本)下的Bioconductor生物信息分析软件中的DNAcopy软件包和samr软件包。GISTIC分析使用的是在线平台GenePattern中的GISTIC模块来完成的,其它的统计分析同样使用R语言完成。R语言是免费开源的环境平台,适合统计计算和图形化显示计算结果。R语言平台最大的优势就是多元的软件包,这些软件包都是世界上不同领域的科研人员开发和维护的。R语言平台非常适用于高校科研并且在涉及到生物信息分析的领域具有较高的权威。结果97例卵巢癌在通过CBS和GISTIC分析后,发现在21条染色体上的48个区域存在显著的拷贝数扩增,在22条染色体上的54个区域存在显著的拷贝数缺失。扩增区域中包含174个候选基因,其中有多个基因已经被证实为致癌基因,包括EVI、KRAS、CCNE1、MYC;缺失区域包含2712个候选基因。SAM分析发现174个扩增基因中的55个基因在卵巢癌中存在差异表达,其中45个表达上调,10个表达下调。对45个拷贝数变异方向和基因表达方向一致的基因发现,其中有40个基因在有拷贝数扩增和没有拷贝数扩增样本之间至少能引起一个基因产生差异表达,并且它们两者之间是存在相关性的。对40个标签基因进行生物信息学分析,发现它们主要集中在细胞代谢、细胞合成、细胞周期、细胞凋亡等生物学过程,并且参与了CCNE1细胞周期、MAPK信号通路、TGF-beta信号通路和肌动蛋白细胞骨架调节等细胞通路。同时它们多数都与已经发表的肿瘤相关的研究有重叠。结论在本文中我们通过CBS分割和GISTIC分析,识别了卵巢癌中常见的具有显著性的拷贝数变异区域,同时获得了该区域内相关的基因。利用肿瘤样本和正常组织样本,我们检测到了肿瘤样本中存在差异表达的基因。最后,利用统计分析方法得到拷贝数变异和表达存在相关性的基因,并对它们进行生物信息分析来获取有效的信息,为确定卵巢癌的早期诊断和治疗靶点提供新的参考。本文在最后指出了研究结果的意义以及该研究中存在的不足和有待进一步深入研究的问题。作为肿瘤研究的一个范例,本研究中使用的分析策略同样适用于其它癌症的研究,如果能通过将更多水平的数据整合进行分析,那么得到的综合分析结果将更具有参考和指导意义。