乳腺癌整合数据分析平台的构建及分子标志物识别

来源 :中国人民解放军军事医学科学院 | 被引量 : 1次 | 上传用户:kinbay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌是发生在乳腺上皮组织的恶性肿瘤,是一种异质性很强的肿瘤。全球乳腺癌发病率自从上世纪70年代末以来持续保持上升趋势,并且也已成为女性发病率最高的癌症,2012年全球女性乳腺癌新发病例达到1 676 600例,死亡病例521 900例,分别占女性肿瘤新发病例的近25%和死亡病例的15%。乳腺癌是受多种环境因素和遗传因素影响的复杂性疾病,已成为威胁女性健康和生命的主要杀手。乳腺癌发病风险的相关生物学因素包含激素因素、遗传因素、年龄因素以及病毒影响等。其中,流行病学研究和干预性研究公认乳腺癌的发生受激素的影响最大,最显著的证据就是女性乳腺癌的发病率是男性的125倍。乳腺癌的遗传因素在疾病发生中也极为重要,通过对有症状的患者的连锁分析,发现了两个最著名的与乳腺癌密切相关的遗传基因,BRCA1和BRCA2基因。此外,还有一些在乳腺癌中高度显效的肿瘤相关基因包括p53、PTEN以及CHEK2等,他们均在乳腺癌特定亚群的发病机制中占据重要的地位。乳腺癌是一类高度异质性的复杂疾病。随着对肿瘤研究的不断深入,研究人员意识到乳腺癌是一种基因组疾病,从分子水平研究肿瘤的生物学行为为肿瘤的认识提供了重要的依据。以肿瘤分子表达差异为基础的乳腺癌分子分型的提出使研究人员对乳腺癌的异质性有了全新的认识,进而衍生出一系列的针对性诊断和治疗方案,为临床上乳腺癌个体化治疗的有效性以及患者预后判断的准确性提供了重要的保障。近年来随着分子生物学技术的不断进步和新兴技术的发展,研究人员尝试采用各种方法从分子水平或者基因组水平对乳腺癌的内在本质进行探究,例如基因表达谱技术的发展为这类研究提供了可能性,由此可获得乳腺癌患者的分子特征,根据这些独特的分子特征对其进行分类或者分型,从而可以更加精确的实现患者治疗和预后评估。乳腺癌组织样本的全基因表达分析等分子生物学新技术在乳腺癌研究中的应用,为人们提供了一个研究乳腺癌的新视角,包括发病机制、分类学和治疗策略等。截止目前,人们对乳腺癌的认识和理解已经取得了明显的进步,但是由于乳腺癌的高度异质性,许多关于肿瘤形成和进展相关的问题仍然持续困扰着研究人员。识别并研究在乳腺癌发生进展过程中扮演重要作用的基因对于深刻理解乳腺癌的发病机制有着至关重要的作用,尤其是针对恶性程度较高、预后较差的乳腺癌亚组,例如基底样亚型或者发病早的乳腺癌患者。基于以上认识及研究思路,本课题拟从分子层面出发构建一个包含基因分析功能的乳腺癌多组学整合数据分析平台,旨在对乳腺癌的基因功能研究和诊断及预后判断标志物的识别提供良好的分析平台和工具。为了构建一个数据全面、功能丰富的乳腺癌多组学整合数据分析平台,我们首先对乳腺癌相关数据进行了全面的调研,经过评估最终确定并收集了五种类型的数据,包括:基因表达谱数据、基因拷贝数变化数据、miRNA调控基因靶标关系数据、KEGG通路数据以及乳腺组织特异性的基因功能网络数据。其中数据的来源均是目前国际上大型的公共数据库或者已公开发表的文章中所提供的数据,主要包括:NCBI的GEO数据库、TCGA数据库、EMBL-EBI的EGA数据库、miRTarBase和miRBase数据库、KEGG数据库以及GIANT基因功能网络数据库。收集的数据采用严格统一的质量控制和标准的分析流程处理完成之后,剔除了部分不合格的数据,最终保留了9005个乳腺癌样本和376个癌旁组织样本的基因表达谱数据,3035个乳腺癌患者的基因拷贝数变化数据,以及其他几类组学数据。为了给用户提供良好的数据分析平台和分析工具,我们搭建了全新的网站服务器,在此基础上开发了乳腺癌多组学整合数据分析平台(BCIP,http://omics.bmi.ac.cn/bcancer/)。该数据分析平台相比其他乳腺癌数据库和分析工具而言,具有两个显著的优点;一是BCIP为研究人员提供了多种分析工具,总计包括5种分析类型,分别是:转录组分析、拷贝数变化分析、miRNA靶标基因分析、通路分析以及基因功能网络分析;二是支持用户对单个数据集的样本进行自定义分组,允许用户根据不同的临床指标对患者进行更加精细和有效的分类。我们一共提供了15种组织病理特征、预后等临床信息。BCIP对每一种分析类型都提供了各自的可视化展示及统计分析结果。此外,本课题进一步分析了4个乳腺癌新辅助化疗前活检组织的基因表达谱数据,筛选与T/FAC(多西他赛、氟尿嘧啶、多柔比星和环磷酰胺)或T/FEC(多西他赛、氟尿嘧啶、表柔比星和环磷酰胺)新辅助化疗方案治疗有效性显著相关的基因。其中样本按照化疗效果分为病理完全缓解(pCR)和残留浸润性肿瘤(RD)两类。分析两组样本差异表达的基因,探讨其表达水平的变化与化疗疗效的相关性。通过分析,我们分别在4个数据集中找出显著差异的基因(adjusted P-value<0.05),按照表达水平的高低分为pCR组相比RD组高表达的基因和低表达的基因两组。最后,将4个数据集的结果取交集,得到在4个数据集中同时高表达或低表达的基因,分别为34个和42个基因。基于交集的差异表达基因,我们对四组样本做了无监督聚类,发现pCR和RD两组倾向性地分别富集在两类(Kappa一致性检验,P-value<0.05)。通过上述分析得到的76个差异表达基因与乳腺癌新辅助化疗疗效有关,可能成为新的化疗疗效预测标志物。
其他文献
安塞低渗透油田受天然微裂缝发育的影响,人工裂缝的侧向油井见效差,油藏产量和压力分布严重不均,部分区块长期不见效,油井处于低产低效状态。重复压裂改造是否成功的关键在于
采用水蒸气蒸馏法提取马尾松松针挥发油,通过单因素试验和Lv(3^4)正交试验,研究液固比、提取时间、浸泡时间对马尾松松针挥发油提取得率的影响以及提取马尾松松针挥发油的最佳工
黑爪耳就是人们喜爱的山珍,是我国传统的出口商品,市场潜力大,发展前景好,在国内外市场上货源紧缺,一直供不应求。黑木耳是一种质地鲜脆,滑嫩爽口,营养丰富的食用菌,主要产地在黑龙江
第一部分 探究TPSA为4~10ng/ml时前列腺穿刺在前列腺癌中的诊断效能背景前列腺癌是泌尿生殖系统的常见肿瘤,在世界范围内的发病率已由原来的第七名上升到了第五名,在男性肿瘤
地方师范院校承担着为地方教育事业培养优秀合格的人民教师的重任。陇南师范高等专科学校是一所地方性的全日制普通师范专科学校,学前教育专业虽已有十多年的办学历史,但是仍
深度学习是学生对知识的自主建构过程,这从客观上要求教师学习必须从"教师教学研究"转向"学生学习研究"。选取国家、区域和学校层面的教师团队个案各两个,对相关学习资源、研
针对在普通实验室和医院实现40—100keVX射线相衬成像的需求,考虑到成像系统参数、X射线源空间相干特性及光栅衍射效率,设计出硅基相位光栅结构参数.利用我们已发展的光助电
<正>10月10日,国务院发布《关于在全国推开"证照分离"改革的通知》。《通知》要求,从2018年11月10日起,在全国范围内对第一批106项涉企行政审批事项实施"证照分离"改革。其中
期刊
根据高技术产业技术创新活动的复杂性,将高技术产业技术创新活动分解为技术研发过程和技术转化过程,通过构建固定规模报酬的网络SBM模型对我国区域高技术产业技术创新效率进
有效的课堂教学是指教师遵循教学活动的客观规律,以尽量少的时间、精力和投入,取得尽量好的教学效果。如何提高课堂教学的有效性和教会学生学习,成为所有英语教师共同面临的