癌症相关基因识别及演化进程推断方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yjichao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症基因组学研究的目标之一是识别所有与癌症相关的基因,并对它们在癌症起始和进程中的贡献做出解释。高通量测序技术的快速发展,产生了大量的癌症基因组数据,为癌症基因组学研究提供了便利。这方面的研究面临两个具有挑战性的问题:(1)哪些相关基因驱动癌症演化进程?(2)如何在基因水平以及通路水平分析癌症演化进程?解决这两个问题对于涉及靶向药物的治疗决策至关重要。本文以真实的癌症基因组数据作为研究对象,主要研究工作包括识别癌症相关基因和推断癌症演化进程两个方面。虽然已经提出了一些方法来识别癌症相关基因,但是如何将驱动突变与乘客突变分离、检测罕见突变、识别驱动通路以及快速有效的查找关键基因仍然是癌症基因组学中一个具有挑战性的问题。面对大量的肿瘤体细胞突变数据,可以深入分析肿瘤的发病机制。然而,这些大多是横截面数据而非时序数据,很难从中推断出癌症演化进程中基因突变的时序,又由于患者间的异质性,在驱动通路水平上推断癌症演化进程比在单个驱动基因水平上更合理。针对已有算法存在的问题和局限性,本文的主要工作可以概括如下:(1)现有方法需要有关基因或蛋白质相互作用信息来构建基因网络。然而,由于当前人类相互作用组的不完整,构建的基因网络可能存在偏向。针对这个问题,本章仅使用基因表达数据构造基因网络,提出了一种基于图熵识别癌症相关关键基因的算法(An Efficient Strategy for Identifying Cancer-related Key Genes based on Graph Entropy,iKGGE)。首先,基于稀疏逆协方差矩阵构造一个基因网络,该网络只使用基因表达数据。然后,使用并行最大团算法聚类基因,快速获得一系列的子图。最后,引入一个新的指标,结合图熵和上游基因突变的影响来衡量基因的影响因子。对现有的3个癌症数据集的测试表明,该算法可以有效地提取在肿瘤发生发展过程中可能扮演不同角色的关键基因,且根据关键基因能很好地预测癌症患者的风险组。(2)癌症驱动基因的识别对于个性化治疗至关重要。为了提高准确性,提出了整合多元组学数据识别癌症驱动基因的方法(A Novel Method for Identifying the Potential Cancer Driver Genes based on Molecular Data Integration,iPDG)。整合了匹配癌症样本的DNA拷贝数变异、体细胞突变和基因表达数据。结合上一章的方法识别的癌症“关键基因”,综合考虑其表达水平的改变情况与突变基因影响,来评价突变基因是否是潜在驱动基因。对于一个突变基因,定义了突变影响的概念,突变影响综合考虑了拷贝数变异、突变序列本身、和它邻居基因的影响。主要包括两个步骤:第一步是数据预处理,首先整合DNA拷贝数变异和体细胞突变数据,然后将整合后的数据映射到给定的交互网络,通过一个网络扩散模型得到每个基因扩散后的值。这些扩散值形成了突变影响矩阵。第二步是结合上一章的iKGGE方法识别关键基因,利用关键基因的基因表达数据与突变影响矩阵构建连接矩阵。在TCGA乳腺癌和多形性胶质母细胞瘤数据上的实验表明,iPDG不仅能有效识别已知的癌症驱动基因,还能发现罕见的潜在驱动基因。通过功能富集分析,发现这些基因与这两种癌症明显相关。(3)为了从基因水平以及通路水平同时推断癌症演化进程,提出了一个概率图模型推断有向无环图表示的癌症驱动基因突变的时序和选择关系(Inference of Cancer Progression with Probabilistic Graphical Model from Cross-sectional Mutation Data,PGM)。然后,基于这些驱动基因的突变概率,在给定前一个基因突变发生的情况下,将一个突变与后续突变之间的等待时间建模为突变概率的随机函数,从而得到发生突变在相同时间段的驱动基因。最后,评估了PGM在模拟数据和真实癌症体细胞突变数据上的性能。实验结果和对比分析表明,PGM可以捕获大多数驱动基因突变的选择关系,大多数已被先前的研究证实。最重要的是,PGM还可以从横断面数据中同时推断驱动通路的时序。(4)提出了一个完整的计算框架,从体细胞突变数据中识别突变驱动通路和在通路水平推断癌症演化进程(An Integrated Framework for Identifying Mutated Driver Pathway and Cancer Progression,iMDPCP)。首先,使用不确定系数来量化驱动基因通路的排他性,并采用基于自适应离散差分进化算法识别突变驱动通路。然后,基于贝叶斯网络构建了驱动通路水平的癌症演化进程模型。最后,评估了iMDPCP在真实癌症体细胞突变数据集上的表现。使用KEGG通路富集分析实验结果发现,iMDPCP比现有方法更加准确,该方法为在通路水平上识别癌症演化进程提供了新的见解。
其他文献
目的:分析和探讨对老年糖尿病并发脑梗死患者进行人性化护理的效果。方法:选择合肥市第二人民医院收治的74例老年糖尿病并发脑梗死患者作为研究对象。将这些患者平均分为A组和B
上饶行署,九江市人民政府,波阳、余干、都昌、湖口、彭泽、九江、星子、永修县人民政府,省农业厅、省民政厅、省粮食局、省财政厅、省审计厅:联合国世界粮食计划署(WFP)紧急
2000.11.16 省长助理凌成兴在南昌会见了以川田先生为团长的世界银行项目评估团一行9人。2000.11.16-11.19 以全国总工会副主席倪豪梅为组长、国务院妇儿工委成员单位的有关
期刊
第一章Aurora-B、CENP-U在肝内胆管癌的表达和临床病理关系目的检测Aurora-B、CENP-U在肝内胆管癌组织中的表达,明确Aurora-B、CENP-U与肝内胆管癌临床病理相关因素关系,并了
我们结婚已近三年,夫妻生活一直很正常,但妻子从未怀过孕.曾在几家医院多次检查过精液常规,并没有发现异常变化;妻子的妇科检查也不存在问题.我们性生活的次数也不少,体位也
目的:研究对进行手术治疗的新生儿实施人性化护理的临床效果。方法 :将2015年12月至2016年11月期间在四川省攀枝花市妇幼保健院进行手术治疗的76例新生儿及其家长(76名)作为本文
多铁材料通常是指在一个相中同时具有两种或两种以上基本铁序(包括铁电序、铁磁序、铁弹序等)的材料,它涉及到丰富的物理机制,并且有着广泛的应用前景。从1960年发现第一种磁电
爱液从何而来正当性医学家们为爱液的成因困惑不解时,日本东京医学院妇产科医生龟田一谦和名古屋大学解剖教授室渡边仲三教授成功地揭开了这个谜.
入秋,天气渐凉,但小王总觉得浑身不舒坦:口干舌燥,喝水也不感到滋润;鼻腔有股似烟干燥感,一不小心还出血;喉咙也痒痒的,频频干咳,有时有少量的黏液痰,却总是咳而不爽:嘴唇一碰就干裂,痛得