基于概率图模型的基因网络推断方法及应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:madefake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据“中心法则”理论,很多生物学性状都与基因有关。然而,生命体内的基因通常不单独执行功能,而是通过与其他基因相互作用构成基因网络,协同地完成特定的生物功能。例如,细胞内的基因共表达网络和细胞之间的信号传导网络在生命过程中扮演至关重要的作用。此外,基因网络不是固定不变的,而是随着生物环境或条件变化而变化。因此,构建基因网络并推断它们随环境变化而变化的模式有助于揭示相关生物学机制。基因网络很难通过实验方法大规模动态地观测,如何通过计算方法从高通量转录组数据推断相关网络是生物医学、统计学、机器学习等领域共同关注的重要课题。本文立足于各种转录组数据,以概率图模型和结构化稀疏学习为理论基础,提出了数学模型和计算方法推断细胞内部和细胞之间的基因网络并挖掘相关网络随环境变化的变化模式,为从基因网络的视角解析相关生物学机制提供了计算方法支持。主要内容包括:(1)面向bulk转录组测序数据,以高斯图模型与结构化稀疏学习为理论基础,本文提出一种推断癌症亚型基因共表达网络的新方法。通过结合高斯混合模型,该方法在推断癌症亚型基因共表达网络的同时,还能对癌症样本的亚型类别进行识别;通过整合正常样本和癌症样本,增大样本量,有效缓解基因网络推断中的小样本高维度问题。模拟实验结果表明了该方法在亚型识别和基因网络估计上效果都优于对比方法。在乳腺癌数据集上的应用表明,该方法能更好地对乳腺癌样本进行亚型聚类,而且推断的基因网络中的关键基因在乳腺癌的发生发展和亚型刻画中起重要作用。(2)基因之间的相互作用关系会随着疾病状态的改变而发生变化,对单个基因共表达网络的分析无法阐明基因相互作用关系在不同疾病状态之间的变化模式。因此,面向bulk转录组测序数据,基于高斯图模型和稀疏学习理论,本文提出了一种新的差异共表达网络推断方法来探索不同疾病状态间基因网络的变化。该模型一方面通过将差异共表达网络定义为偏相关系数矩阵的差而不是精度矩阵之差,有效排除了由于条件方差改变而形成的伪差异边;另一方面通过多重假设检验获得的先验信息,对不同基因之间相互作用施加不同惩罚,提高了模型的效果。该模型在模拟数据上的效果优于其他方法,且在估计乳腺癌Luminal A型和Basal-like型的差异共表达网络,以及急性髓系白血病与正常样本的差异共表达网络上,该方法推断的差异共表达网络中的关键基因对刻画不同的疾病状态至关重要。(3)基因共表达网络描述的是细胞内部基因之间的相互作用关系,但是刻画细胞与细胞之间信号传递的信号网络对研究多细胞生物的生命活动也至关重要。面向单细胞空间转录组数据,基于贝叶斯网络,本文提出了一种同时推断细胞内部和细胞之间的信号网络的新方法。与之前只考虑信号分子的丰度的信号网络推断方法不同,该方法通过整合细胞的位置信息,以推断更准确的信号网络。本文从多个数据来源收集整合了转录因子-配体-受体-转录因子-靶标基因的先验传导网络,并在该先验网络的基础上建立了贝叶斯网络模型,随后基于神经网络的方法来求解该贝叶斯网络模型。通过与神经网络相结合,避免了对贝叶斯网络模型中条件概率的逐个求解;通过与生物分子网络相结合,使神经网络具有可解释性。最后,将其应用于小鼠胚胎数据集,基于学习到的信号传导网络,通过关键节点分析识别在信号传导过程中起重要作用的生物分子,并通过差异信号网络分析研究信号发送细胞对信号接收细胞作用机制的差异。总而言之,本文立足于转录组数据,基于概率图模型,提出了三种基因网络的推断方法,对研究疾病的发生发展和器官发育有重要意义。
其他文献
极大距离可分码(maximum distance separable codes,简称MDS码)在量子力学,分布式存储系统,纠错码,拟阵表示,门限共享体制等方面具有一定的理论意义和实用价值,从而在编码理论中占有重要地位.广义里德-所罗门码(generalized Reed-Solomon codes,简称GRS码)是一类著名的MDS码,同时也是一类重要的纠错码.在GRS码中增添一个分量(即一个无限
学位
本文主要研究了两类复杂双层腔体的散射问题.第一类是具有传导边界条件的双层腔体散射问题,用基于近场信息的因式分解法重构了腔体的内层边界,并给出了数值模拟;第二类是具有混合边界条件的双层腔体散射问题,用基于近场信息的线性抽样法重构了腔体的内层边界,并给出了内层边界物理涂层电导率的详细计算过程及公式.本文共分为五章.第一章主要阐述本文所研究问题的背景及国内外研究现状,并介绍本文的主要研究工作及相关预备知
学位
随着城市化进程的加快和人民生活水平的提高,居民实际需求不断转变,逐渐从基本生存资料的“硬需求”倾向发展享受资料的“软需求”,这势必对社会公共服务供给的质与量提出更高要求,但社会贫富差距拉大、公共服务资源短缺及空间配置不均等问题日益凸显,促使整个社会对公共服务资源公平正义问题更加关注。城市生态游憩空间作为集经济-生态-休闲功能于一体的重要公共服务设施,不仅是城市空间结构的重要组成部分,也是衡量城市生
学位
构建有效的股市投资组合策略不仅能够帮助投资者最大程度降低投资风险,而且能增加潜在预期收益。然而由于信息的非对称、不完备性等,金融时间序列往往是含噪的。在实践中,一件容易被忽略的事实是组合绩效对噪声非常敏感,忽略噪声的存在得到的实证结果存在失真的风险,投资者也很难得到有效且稳健的组合策略。在当前投资风险增大化的背景下,如何消除噪声对投资组合的不利影响成为需要迫切关注的问题。目前,已有学者尝试将流行的
学位
网络数据统计分析是近十几年来最活跃、最前沿的领域之一。在我们生活中存在着大量的复杂系统都可以用网络来表示。例如社交网络、代谢网络和蛋白质交互作用网络等。通过对网络数据建模,可以刻画网络结构中的属性特征,如度的异质性和协变量的同质性等,进而利用统计方法帮助我们去理解、描述和预测复杂系统。因此统计模型是研究网络结构生成机制的重要工具。本文在已有的统计理论研究基础上,结合不同网络中的节点信息构建模型,研
学位
近年来手性药物的需求量激增,且药物对映体间悬殊的药理及毒性差异,使开发高效的手性拆分方法成为目前亟待解决的科学问题。膜拆分法具有分离量大、可连续操作、耗时少、环境友好等优点,其中能够选择性传输药物对映体的手性纳米通道是手性膜拆分领域的研究热点之一。提高纳米通道在手性拆分中的对映选择性是最关键的科学问题,其中有两个关键点:一是纳米通道的孔径,调控通道直径与药物分子尺寸匹配是提高选择性的策略之一;二是
学位
本文主要研究了有限维约化方法在非线性椭圆型偏微分方程中的应用.本文共分为五章:在第一章中,我们将概述本文所研究问题的背景及其国内外研究现状,并简要介绍本文的主要工作,相关的预备知识以及一些常用的记号.在第二章中,我们介绍了有限维约化方法的基本原理以及在椭圆问题中的一些应用.在第三章中,我们研究了具有相互吸引作用的玻色-爱因斯坦凝聚模型,该模型可以用带L2-质量约束的Gross-Pitaevskii
学位
群代数的块之间有一些保持局部结构的等价关系,如M.Broué提出的isotypy、J.Ricard提出的splendid导出等价以及L.Puig提出的basic Rickard等价.Broué交换亏群猜想以及Rouquier的一个猜想涉及这些等价.本文分为三个研究问题.第一部分研究basic Morita等价与isotypy的关系,给出了诱导basic Morita等价的双模也诱导isotypy的
学位
人类目前已知的四种基本相互作用力为:万有引力、电磁力、强相互作用、弱相互作用。其中夸克胶子之间的强相互作用力是由量子色动力学来描述。量子色动力学有两个基本特性——渐进自由和色禁闭。渐进自由表示动量转移越大,耦合常数就越小,夸克之间的相互作用就越弱。色禁闭表示夸克动量转移越小,耦合常数较大,夸克之间的相互作用也越强。色禁闭意味着自然界中不存在单独的夸克。多个带色荷的夸克只能被束缚在狭小的空间内,形成
学位
二阶薛定谔算子-Δ+V的研究起源于非相对性量子力学.经过近一个世纪的深入发展,薛定谔算子已成为数学研究的核心对象之一,其不仅有丰富的理论研究内容,而且在调和分析、偏微分方程及微分几何等众多领域有着广泛应用.尤其近二十年来,薛定谔算子的色散估计在非线性薛定谔方程解的适定性和散射理论的研究中扮演着不可缺少的角色.高阶椭圆算子的研究是二阶薛定谔算子-Δ+V理论的自然发展,一直以来,被许多数学家关注和研究
学位