基于组学数据的癌症生物学通路分析方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是现今最致命的疾病之一。到2030年,在世界范围内,每年将有一千三百万人死于癌症。微阵列和下一代测序等高通量技术的出现,推动了全基因组范围内癌症的研究。生物学标志物的识别是高通量测序技术的一个重要应用,作为疾病的分子特征,可以用来为临床辅助决策。尽管生物学标志物已广泛应用,但是仍存在很多问题。其一是在疾病的发展和治疗反应中识别出的很多基因标志物缺乏合理的生物学功能解释,其二是针对癌症这种异质性疾病,基因标志物的可重复性是一大挑战。鉴于可靠临床基因标志物识别的困难,研究人员需要利用生物学的先验知识以加强数据驱动的方法来识别具有鲁棒性的生物学标志物。因此,基于生物学通路的方法被开发出来。通过整合通路分析和基因组数据评估在患者亚群和个体肿瘤中哪些通路被调控来指导靶向治疗,基于生物学通路的方法能够帮助我们在功能机制上深入了解癌症致病机理。然而,现有的大多数通路分析方法没有考虑到通路复杂的相互作用,并且没有融合多组学数据。本文针对上述问题,对基于网络的通路分析和基于通路的癌症诊断进行了深入的研究。全文首先系统的介绍了通路分析的主要方法及其特点,总结了通路分析面临的主要困难和研究现状。然后针对性的提出若干基于网络的通路分析方法及基于通路的癌症分类方法,具体分为以下几个方面。(1)大规模生物网络的建立,使得基于网络的通路分析方法成为研究热点。在全基因组范围生物网络中,通路的交互不局限于通路内部基因的相互交互,通路内部的基因与通路邻近的基因也存在着广泛的交互。基于此,本文提出了一种基于加权基因交互网络的通路分析方法,首先通过整合蛋白质相互作用数据,基因表达谱数据,分别构建了全基因组水平表型特异性的基因关联网络,然后通过考虑关联网络边的权重和度,利用Limited K-walks算法,将每一个通路分别在表型特异性关联网络中寻找网络中与通路密切相关的基因,并扩增为两个小网络,最后通过评价扩展后的这两个小网络的差异性来识别与癌症相关的通路。在公开的数据集上,本文的方法与其他方法进行了比较,实验结果表明,本文的方法能够有效的识别出与癌症相关的通路。(2)各组学海量数据的快速积累,为揭示癌症致病机理提供了有力的数据支持。众多组学数据中,转录组学和表观基因组学关系最为密切。基于此,本文提出了一种基于网络融合多组学数据的通路分析方法。该方法通过主成分分析和稀疏典型相关分析整合DNA甲基化和基因表达数据计算表型特异性网络边的权重。构建每个表型下的加权网络,然后把通路依次嵌入网络中进行扩展,扩展后的通路基因集作为基因列表进行经典的富集分析,以此来评估通路与相关癌症的关系。该方法在三个公开数据集上进行了验证分析,实验结果表明,本文的方法通过融合DNA甲基化和基因表达数据在样本数量较少的情况下结合经典的通路分析能有效的识别出与癌症相关的通路。同时该方法可以基于大规模的生物网络研究原始通路间和扩展通路间的交互关系,为从系统学的角度研究通路在癌症中的作用提供了新的角度。(3)精准医疗概念的提出,使得通用性医疗开始向个性化、精准医疗转变。随着个性化通路分析方法相继被开发出来,基于个性化通路的癌症研究成为了最近研究的热点之一。本文首先对三种类型通路用于癌症分类的效果进行了比较分析,实验结果表明基于OR-pathway的方法分类效果最好。然后本文构建了基于个性化分析识别风险通路模型,将该模型应用到乳腺癌数据集中进行实验分析,实验结果表明该方法能够有效的识别出与乳腺癌相关的通路。(4)组学数据具有维数高、样本少、高噪声等特点,这些特点在数据挖掘中容易导致维数灾难和过拟合等问题,使得很多经典的机器学习方法失去了其效能。基于此,本文提出了一种基于通路集成学习的癌症分类方法。该方法首先通过差异基因集和通路基因列表求得差异通路基因列表,然后以每个差异通路基因列表构造基分类器。最后通过相关算法进行基分类器筛选,选取最优基分类器集合构建集成学习分类器进行癌症诊断。本文的方法在三个公开数据集上与其他方法进行了比较分析,实验结果表明,本文方法不但具有最优的分类性能,而且结果具有很好的鲁棒性。同时,集成学习器中的基分类器具有明确生物学意义,识别出了临床相关的核心生物学通路和癌症潜在的生物学过程,可以帮助研究人员理解癌症发病和预后机理。
其他文献
采用混凝脱色一悬浮曝气生物滤池工艺处理某印染厂主要含活性染料的废水。工程运行结果表明:在原水CODCr ,SS的平均质量浓度分别为296,285mg/L和平均色度为550倍的条件下,经过处
罗塞蒂画作中的时间观念源自于对自然和人的尊重,自然和人本身就是时间绵延的产物。在如此抽象的时间之谜面前,艺术家用自然和人的具象,通过题材的叙事性、对象的时间隐喻和作品
近年来,乡村旅游的快速发展为农村三产融合、农民增收、宜居乡村建设提供了一个全新的模式,因而得到了政府和社会资本的青睐。但是快速发展的背后也隐藏着认识偏误、政府投资
运用第一类曲线积分方法解决一类特殊的第一类曲面积分问题,并举例说明此方法的简便性.
基于铸造厂缸盖车间造型自动线翻箱机的技术改造,介绍了变频器在翻箱机上的应用技术。通过应用变频器实现翻箱机的平稳翻转,不仅保护电机和变速箱,同时减少了由于翻箱机转速
根据基因库中鸭Ⅰ型肝炎病毒和番鸭细小病毒的基因序列,分别设计了两对特异性引物,通过对二重RT-PCR扩增条件的优化,研究建立了可同时鉴别检测鸭Ⅰ型肝炎病毒和番鸭细小病毒
当前国际经济发展形势对于我国来说已经非常严峻,如何在这种形势之中获得利益显得尤为重要,而研究和探索近几年来在全球金融危机蔓延的大背景下中俄两国的经贸关系现状,指出
利用反应控制相转移催化剂[π-C_5H_5NC_(16)H_(33)]_3{PO_4[WO_4]_3}催化环戊烯合成高纯度戊二酸,并对其反应机理和催化剂回收循环机制进行了研究。确定以30%双氧水作为氧化剂时
前言提高齿轮承载能力有三个途径,即:改进减速器结构、修改齿形、提高齿轮强度。这三个方面的大量研究工作和不断创新,推动着齿轮承载能力的不断提高。上述三个途径中以提高
采用表面分子印迹技术,以氯霉素为模板分子,甲基丙烯酸为功能单体,乙二醇二甲基丙烯酸酯为交联剂,偶氮二异丁腈为引发剂,制备氯霉素表面分子印迹聚合物。通过扫描电镜、等温