论文部分内容阅读
乳腺癌是发生在乳腺上皮组织的恶性肿瘤,是一种异质性很强的肿瘤。全球乳腺癌发病率自从上世纪70年代末以来持续保持上升趋势,并且也已成为女性发病率最高的癌症,2012年全球女性乳腺癌新发病例达到1 676 600例,死亡病例521 900例,分别占女性肿瘤新发病例的近25%和死亡病例的15%。乳腺癌是受多种环境因素和遗传因素影响的复杂性疾病,已成为威胁女性健康和生命的主要杀手。乳腺癌发病风险的相关生物学因素包含激素因素、遗传因素、年龄因素以及病毒影响等。其中,流行病学研究和干预性研究公认乳腺癌的发生受激素的影响最大,最显著的证据就是女性乳腺癌的发病率是男性的125倍。乳腺癌的遗传因素在疾病发生中也极为重要,通过对有症状的患者的连锁分析,发现了两个最著名的与乳腺癌密切相关的遗传基因,BRCA1和BRCA2基因。此外,还有一些在乳腺癌中高度显效的肿瘤相关基因包括p53、PTEN以及CHEK2等,他们均在乳腺癌特定亚群的发病机制中占据重要的地位。乳腺癌是一类高度异质性的复杂疾病。随着对肿瘤研究的不断深入,研究人员意识到乳腺癌是一种基因组疾病,从分子水平研究肿瘤的生物学行为为肿瘤的认识提供了重要的依据。以肿瘤分子表达差异为基础的乳腺癌分子分型的提出使研究人员对乳腺癌的异质性有了全新的认识,进而衍生出一系列的针对性诊断和治疗方案,为临床上乳腺癌个体化治疗的有效性以及患者预后判断的准确性提供了重要的保障。近年来随着分子生物学技术的不断进步和新兴技术的发展,研究人员尝试采用各种方法从分子水平或者基因组水平对乳腺癌的内在本质进行探究,例如基因表达谱技术的发展为这类研究提供了可能性,由此可获得乳腺癌患者的分子特征,根据这些独特的分子特征对其进行分类或者分型,从而可以更加精确的实现患者治疗和预后评估。乳腺癌组织样本的全基因表达分析等分子生物学新技术在乳腺癌研究中的应用,为人们提供了一个研究乳腺癌的新视角,包括发病机制、分类学和治疗策略等。截止目前,人们对乳腺癌的认识和理解已经取得了明显的进步,但是由于乳腺癌的高度异质性,许多关于肿瘤形成和进展相关的问题仍然持续困扰着研究人员。识别并研究在乳腺癌发生进展过程中扮演重要作用的基因对于深刻理解乳腺癌的发病机制有着至关重要的作用,尤其是针对恶性程度较高、预后较差的乳腺癌亚组,例如基底样亚型或者发病早的乳腺癌患者。基于以上认识及研究思路,本课题拟从分子层面出发构建一个包含基因分析功能的乳腺癌多组学整合数据分析平台,旨在对乳腺癌的基因功能研究和诊断及预后判断标志物的识别提供良好的分析平台和工具。为了构建一个数据全面、功能丰富的乳腺癌多组学整合数据分析平台,我们首先对乳腺癌相关数据进行了全面的调研,经过评估最终确定并收集了五种类型的数据,包括:基因表达谱数据、基因拷贝数变化数据、miRNA调控基因靶标关系数据、KEGG通路数据以及乳腺组织特异性的基因功能网络数据。其中数据的来源均是目前国际上大型的公共数据库或者已公开发表的文章中所提供的数据,主要包括:NCBI的GEO数据库、TCGA数据库、EMBL-EBI的EGA数据库、miRTarBase和miRBase数据库、KEGG数据库以及GIANT基因功能网络数据库。收集的数据采用严格统一的质量控制和标准的分析流程处理完成之后,剔除了部分不合格的数据,最终保留了9005个乳腺癌样本和376个癌旁组织样本的基因表达谱数据,3035个乳腺癌患者的基因拷贝数变化数据,以及其他几类组学数据。为了给用户提供良好的数据分析平台和分析工具,我们搭建了全新的网站服务器,在此基础上开发了乳腺癌多组学整合数据分析平台(BCIP,http://omics.bmi.ac.cn/bcancer/)。该数据分析平台相比其他乳腺癌数据库和分析工具而言,具有两个显著的优点;一是BCIP为研究人员提供了多种分析工具,总计包括5种分析类型,分别是:转录组分析、拷贝数变化分析、miRNA靶标基因分析、通路分析以及基因功能网络分析;二是支持用户对单个数据集的样本进行自定义分组,允许用户根据不同的临床指标对患者进行更加精细和有效的分类。我们一共提供了15种组织病理特征、预后等临床信息。BCIP对每一种分析类型都提供了各自的可视化展示及统计分析结果。此外,本课题进一步分析了4个乳腺癌新辅助化疗前活检组织的基因表达谱数据,筛选与T/FAC(多西他赛、氟尿嘧啶、多柔比星和环磷酰胺)或T/FEC(多西他赛、氟尿嘧啶、表柔比星和环磷酰胺)新辅助化疗方案治疗有效性显著相关的基因。其中样本按照化疗效果分为病理完全缓解(pCR)和残留浸润性肿瘤(RD)两类。分析两组样本差异表达的基因,探讨其表达水平的变化与化疗疗效的相关性。通过分析,我们分别在4个数据集中找出显著差异的基因(adjusted P-value<0.05),按照表达水平的高低分为pCR组相比RD组高表达的基因和低表达的基因两组。最后,将4个数据集的结果取交集,得到在4个数据集中同时高表达或低表达的基因,分别为34个和42个基因。基于交集的差异表达基因,我们对四组样本做了无监督聚类,发现pCR和RD两组倾向性地分别富集在两类(Kappa一致性检验,P-value<0.05)。通过上述分析得到的76个差异表达基因与乳腺癌新辅助化疗疗效有关,可能成为新的化疗疗效预测标志物。