基于基因表达芯片数据和DNA甲基化芯片数据识别人类结肠癌亚型

被引量 : 6次 | 上传用户:xiaolianzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管在结直肠癌早期病人的治疗及延长生存时间上取得了较大的进展,但每年全球仍有约100万的新发病例及近33%的死亡率,其对人类健康的危害不容忽视。尤其是随着全球经济的发展和人类生活水平的提高,结直肠癌传统低发病地区的发病率在逐年提高,而在这些地区的致死率因为结直肠癌筛查没有广泛实行也要高于西方发达国。结直肠癌高发病率和高死亡率的这个特点在中国表现的尤为明显。传统高发病地区如西欧和美国,因为其普遍开展早期筛查,故有多种方法治疗早期癌症。最保守的方法是手术切除患病区域,加上放疗和化疗辅助治疗。这一系列治疗方法都能降低结直肠癌的致死率并且延长癌症患者术后的生存期。而结直肠癌在中国的状况则不容乐观。20世纪80年代以前中国一直是结直肠癌的低发病地区,但随着改革开放的进步人民生活水平的提高和生活方式的西化,中国国内出现了同日本类似的情况,结直肠癌的发病率和死亡率在逐年上升。2008年的数据统计显示,中国结直肠癌新发病例数约为22.1万人(占所有恶性肿瘤发病数的7.9%),死亡病例数约为11万人(占所有恶性肿瘤死亡数的5.6%)。世界人口标化发病率(ASR Incidence)和标化死亡率(ASR Mortality)分别为14.2/10万(居所有恶性肿瘤第6位)和6.9/10万(居所有恶性肿瘤第5位)。5年患病率为47.6/10万,居所有恶性肿瘤第4位(见表1-1)。结直肠癌在中国的发病人数、死亡人数、5年患病情况都要高于美国,并且发病人数和死亡人数占到了亚太地区的一半以上(发病:22.1:39.4万人;死亡:11:18.2)。在中国国内结直肠癌的发病也呈区域性分布,东南沿海等较发达地区相比于内地欠发达地区的发病率较高,其中浙江、上海、江苏、福建成为了中国结直肠癌的高发地区。据2010年深圳市的统计,10大恶性肿瘤发病第一位是肺癌,第二位为结直肠癌,结直肠癌占十大肿瘤患者比例的10.35%。总体上,结直肠癌已经成为中国人的第五大癌症杀手。为此科学家们投入了大量的精力和财力来研究结直肠癌。结直肠癌在发病位置上分为结肠癌和直肠癌,直肠癌属于肠道的末端,因此在一些研究中将直肠癌和结肠癌区别研究。另外,直肠癌相比于结肠癌有较高的复发率,并且在治疗方案上也不同于结肠癌的治疗方案,它需要对所有直肠癌患者在术后进行辅助化疗。故此,在本研究中,只考虑结肠癌病例和结肠癌的相关特性。众所周知,相同的癌症在不同个体身上的发病表现不同,相同的发病表现却需要不同的治疗方案;癌症的不同分期虽然反映了癌症的一些特性,也能够帮助临床医生制定针对特定分期的治疗方案,但是由于分子水平的变化导致的个体差异性使得相同的病理分期用相同的治疗方案却得到了不同的治疗结果。这一现象的根本原因就是目前无论是科学家还是临床医生对特定癌症在人体内部发生、进展、转移的分子机制了解的不多,不能达到个体化治疗的阶段。应对这一问题的方法就是在大量临床样本的支持下,在癌症的某一分子水平上利用生物信息学的方法进行系统研究,比如说在基因表达水平利用基因表达芯片研究癌症组织和癌旁组织基因表达的差异,来探寻导致癌症发生的原因或者寻找因癌症带来的某些基因表达水平的改变。在国外有大量的对结肠癌类似的研究,他们针对特定结肠癌病理分期的样本,比如Stage Ⅱ或者Duke B分期研究导致这一病理分期的分子机制和相应的治疗靶点以及治疗方案。另外,还有针对大量的结肠癌样本在基因表达水平、MicroRNA表达水平、DNA甲基化水平进行结肠癌亚型的分析。由于使用了较大样本量和较先进的分析方法,针对结肠癌的各表达水平的亚型分类具有一定的可靠性。同时利用基因、MicroRNA、DNA甲基化等分子水平不同基因的表达特性建立的分类标签基因也成为了结肠癌分型识别和在不同分子水平治疗结肠癌的潜在靶点。然而,结肠癌还是在各分子水平内表现出了高度的异质性。显示出现有的分型不够完善,对于结肠癌的分型工作还有待于进一步去探索。本研究的目的在于利用公共数据在基因表达水平和DNA甲基化水平对结肠癌进行分子亚型的识别,寻找出各个划分类同临床数据或者基因变异数据之间的关系,确定各个划分类的独特的分子水平的特性并同较早的研究结果进行比较,以便进一步完善结肠癌在不同水平下的分子分型工作。进行类标签基因的筛选并且建立相应分类器,在样本训练集上获得用于该分类划分的类标签基因和分类器,再利用测试集对该类标签基因和分类器的分类效果进行验证。这样获得的类标签基因和分类器就能够对新样本进行类别预测,达到识别新样本癌症亚型的目的,从而能够对个体建立有针对性的治疗方案,以达到降低癌症病人死亡率和提高病人生活水平的目标。本研究在聚类分析过程中使用的是加入了重抽样方案的一致聚类(Consensus Clustering)分析方法,在判别分析和确定分类标签基因的过程中使用的是PAM (Prediction Analysis of Microarrays)方法。在探讨类标签基因的分子特性过程中使用了基因富集分析的网络软件DAVID (Database for Annotation, Visualization and Integrated Discovery)来考察类标签基因的GO功能富集和KEGG相关通路富集。另外对通路的富集分析还使用了NCI (The National Cancer Institute)网站的相关软件。NCI网站中的通路来自三个方面,第一包括自2006年以来的所有发表在Nature杂志上涉及到人的所有表达通路,并且这些通路通过专家的审查,可靠且无争议;第二来自BioCarta网站的人通路数据;第三来自Reactome网站的人类通路数据。最后本研究分析了这些类标签基因的共表达网络图,使用GENEMANIA在线分析软件。本研究中的一致聚类分析和PAM分类分析使用R语言平台(windows系统2.15.2版本)下的Bioconductor生物信息分析学分析软件中的ConsensusClusterPlus软件包和Pamr软件包。其它的统计分析同样使用R语言平台完成。R语言是免费开源的环境平台,适合统计计算和图形化显示计算结果。R语言平台最大的优势就是多元的软件包,这些软件包都是由世界不同领域内的科研人员开发和维护的。R语言平台非常适用于高校科研并且在涉及到生物信息分析的领域具有较高的权威。本研究使用的结肠癌样本数据来自TCGA(癌症基因组图谱计划,The Cancer Genome Atlas)网站的公共数据库,共有153例结肠癌基因表达芯片数据和相同样本的DNA甲基化芯片数据。在处理153例结肠癌基因表达芯片数据时,发现了ECL1和ECL2两个亚类。此结果同先前的研究比较发现,ECL2亚类中的样本代表了MSI/CIMP基因表达亚型具有一系列独特的生物学特性。ECL1亚类中的样本具有较高的异质性,故而探讨了ECL1亚类中样本的可分性,发现了HOTAIR基因在细分的样本簇中差异表达,这一基因可以作为结肠癌具有较差预后的标签基因。在处理153例结肠癌DNA甲基化芯片数据时,发现了MCL1、 MCL2和MCL3三个亚类。此结果同先前的研究比较发现,MCL2亚类中的样本代表了CIMP-H亚型,MCL1亚类同CIMP-negative亚型相关,MCL3亚类同CIMP-L亚型相关。然而不论是以往的研究还是本研究中都发现MCL3亚类中的样本具有较高的异质性,所以探讨了MCL3亚类样本的可分性,发现MCL3亚类可以细分成两个样本簇,这两个样本簇之间在癌症发病位置和TP53基因突变状态上存在差异,具有统计学显著性,除此之外暂无其它证据表明两个样本簇具有独立的分子特性能够分别代表有意义的结肠癌亚型。最后,对结肠癌在两个水平上进行了分类分析,获得了两个水平上的类标签基因并且建立了分类器,基因表达水平测试集的分类正确率为95.7%;DNA甲基化水平两组类标签基因对样本的分类正确率都在92%以上。综上所述,本研究获得了两水平数据下结肠癌的分子分型,这些亚型同结肠癌的临床数据和分子特性高度相关,同以往的研究比较获得了对结肠癌亚型不同的发现。另外,利用获得的类标签基因建立了两水平数据下的分类器并获得了较好的分类正确率的结果。在本文的最后指出了研究结果的意义以及该研究中存在的缺憾和有待进一步深入研究的问题。作为癌症研究的一个范例,本研究使用的分析策略同样适用于其它癌症的研究,如果能够将更多水平的数据整合分析得到的综合分析结果将更具有参考和指导意义。
其他文献
当前我国刑法理论界存在着形式解释论与实质解释论之争。争论源于二者在罪刑法定原则之下对形式法治观和实质法治观的不同认识,争论的问题则主要表现为如何把握刑法条文用语解
嘉庆初政后,吏治腐败日益严重。作为"国家命脉"的漕运被视为"利薮",成为了贪污舞弊的温室。朝廷官吏中存在各种各样的腐败行为,其中很多在前四朝根本没有出现过,更没有达到如
1998年在墨西哥召开的国际环保大会上,作为环境发展战略,生态旅游首次被提出来。1995年4月可持续旅游发展世界会议在西班牙加那利群岛召开,大会强调认识旅游对环境的依赖性,旅游和环境保护
心理学是关于"人"的科学,自然与关于人的本质的"人性观"具有千丝万缕的关联。而"人性观"之所以能呈现出理性主义、自然主义、机械唯物主义等形态的演变,并统制着西方心理学发
在全球信息化的浪潮中,国家的整体利益应大于部门或行业利益;在宽带战略推进中,行业或部门应准确定位各自的"角色",且不可将部门利益凌驾于国家整体利益之上。
叠音词是一种同音重叠。它既有口语的朴实,又有音乐的旋律,还能表达丰富的情感。通过叠音词的使用,能够传神地描写出人、物的音、形、情、态,有栩栩如生的表达效果。
十一届全国人大五次会议通过了关于修改刑事诉讼法的决定。这次刑诉法的修改,对职务犯罪侦查工作具有重大而深远的影响,它一方面强调强化刑事诉讼中的人权保障的核心精神,对规范
东盟成员国对东盟的认同是评估东盟社会文化共同体建设程度的关键性的核心指标之一。鉴于东盟新成员国的历史特殊性,本文从东盟新成员国的角度考察了影响其对东盟认同的主要
随着我国城市化进程的不断推进,城市的发展水平直接影响了整个国家经济的发展。分析现代城市管理的功能以及现代城市面临的机遇与挑战,阐述何为现代城市管理以及何为城市管理
研究背景支气管哮喘是由多种细胞(嗜酸性粒细胞、肥大细胞、T淋巴细胞、中性粒细胞、气道上皮细胞等)和细胞组分参与的气道慢性炎症性疾病,并与气道高反应性相关。哮喘的发病