基于计算智能的基因调控网络建模研究

被引量 : 0次 | 上传用户:asdfghjkf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组测序工作的完成,单个基因或蛋白质的功能研究已经不能从根本上揭示生命现象的发生和发展规律,所以,在过去的十年中,系统生物学逐渐成为生物学众多分枝中的关注中心。系统生物学是一门快速发展的新兴交叉学科,它结合了生物、化学、物理、数学和计算机科学等学科的知识和技能,其目的在于以系统的、全局的角度来研究生物系统的生理机制。利用基因表达数据实现基因调控网络建模是近年来研究系统生物学的有效手段之一。准确地构建基因调控网络,会大大影响疾病治疗的精度,对于加深细胞活动和致病基因功能机制的理解以及复杂疾病的预防、诊断和治疗具有深远的影响。虽然国内外的研究已经取得了一些成果,但是基因调控网络具有强耦合性、随机性、时变性、强非线性等特点,是一个复杂而庞大的系统,现有的方法较为简单,不能精确地识别基因间的转录调控关系,并且得到太多的假阳性关系。如何有效地建立精确的基因调控模型是目前研究的热点。本论文采用智能计算方法,通过对基因表达数据进行挖掘,实现基因调控网络的重构和基因调控过程中生化反应的建模,并应用到基因芯片得到的冠状动脉粥样硬化斑块基因表达谱中。具体而言,论文的主要工作和创新点描述如下:1.宏观角度建模。针对现有模型构建基因调控网络不准确的现状,本论文提出使用柔性神经树模型(Flexible Neural Tree, FNT)来构建基因调控网络和预测来自于基因表达谱的时间序列。该方法采用类似遗传编程的结构进化算法优化FNT模型的层次结构,编码在结构中的参数则使用模拟退火算法进行优化。这两种优化算法交替使用,直到找到满意的解或者达到规定的迭代上限则循环结束。为了改善构建基因调控网络的准确性,本论文使用模型选择标准AIC和大数表决方法来识别靶基因的最小调控基因集。实验结果表明,相比于Elman神经网络、模糊神经网络、径向基神经网络、递归神经网络、递归模糊神经网络以及这些模型的集成,FNT模型能够更加准确地预测基因表达谱的时间序列,并构造出更精确的基因调控网络。构建基因调控网络的单一模型各有优缺点,使用过程中具有一定的局限性。结合多种模型的系统生物学方法构造的基因调控网络相比单一的模型会更加准确和稳定,这也是模型研究的一个趋势。本论文首次提出了一种多个模型结合的基因调控网络重构方法,即基于互信息混合模型的基因调控网络构建。在该方法中,线性模型和非线性模型分别用来构造基因调控网络,然后对这两种模型对应的网络结构进行整合,得到最终的基因调控网络。使用灵活树模型编码线性和非线性模型,遗传编程和粒子群优化算法分别优化模型的结构和参数。适应值函数包含稀疏系数和相关系数。稀疏系数满足了在实际基因调控网络中,每个靶基因只有极小部分的候选调控因子作为真实因子这个条件,而相关系数充分利用互信息值来评估基因对的相关性,选择与靶基因相关性较大的调控因子。实验结果表明,基于互信息混合模型的基因调控网络构建方法相比于其他经典的单一方法更加准确,不仅在真阳率上保持很高的水平,而且假阳率也很低。2.基因芯片数据处理、调控途径构建和致病基因染色体分布规律分析。本论文采用人类全基因组微阵列HU133Plus2.0基因芯片,使用齐鲁医院和聊城人民医院提供的粥样硬化斑块病人的冠状动脉和正常冠状动脉的样本组织,构建冠状动脉粥样硬化斑块和正常组织的基因表达谱。通过两组表达谱对比,筛选出1104个差异表达基因,然后采用GO功能分类、pathway分析等生物学方法分析这些表达基因,了解其生物功能和生物通路的变化。GO分析发现冠状动脉粥样硬化差异表达基因涉及多个生物功能,如细胞黏附,生物黏附等。Pathway分析发现基因在黏着斑通路显著性富集。在第四章提出的基于互信息混合模型的基因调控网络构建方法用来预测黏着斑通路中差异表达基因间的调控关系,正确预测了Rho激酶调控机制,证明了基因调控网络构造方法的有效性。论文收集了包括人类、小鼠、斑马鱼、果蝇和线虫五种物种的基因组数据,14种疾病的蛋白编码致病基因和与白血病相关突变数据,分析它们在染色体上的基因密度分布情况。结果发现,基因在染色体间的分布显示了一种异质性模式,蛋白质编码致病基因有着相似的染色体间分布模式,并且涉及某些生物过程的蛋白编码致病基因富集在一个或少量几个染色体上。人类19号染色体拥有最高的或者第二高的蛋白编码致病基因分布频率,这可能和这个染色体拥有更多参与转录调控过程的基因有关。这些发现可以针对特定的染色体,改善疾病相关基因筛选研究的效率,如GWAS,全基因组连锁分析和全基因组测序。3.微观和随机角度建模。基因调控涉及大量的生化反应过程,在这些过程中,尤其是在含有少量调控分子物种并且相互作用速度很慢的情况下,离散性和随机性可能起到重要的作用。本论文提出了一种新的随机和延迟随机生化反应模型自动推导模拟框架。灵活反应模型(Additive Reaction Model)编码化学反应模型,首次结合了随机、离散和延迟三种元素。使用遗传算法和粒子群优化算法嵌套使用的混合进化策略来识别灵活反应模型的结构和参数。实验结果表明,灵活反应模型和混合进化策略能够准确地识别出生化反应模型。
其他文献
目的:①了解山西地区近年来原发性肝癌(PHC)的临床特征。②探讨影响原发性肝癌发病的相关因素,为肝癌的病因预防提供科学依据,从而实现对该病的早发现、早诊断和早治疗,降低PH
口干渴饮是临床上常见症状,并无特殊之处,但在不同患者身上,因病因病机的不同,治疗也有明显不同。
本文以河北中南部方言的单字调、连读调和轻声为研究对象,在田野调查的基础上,运用数据统计、比较法、实验语音、方言地图等研究方法,全面深入地描写并探讨了河北中南部方言声调
目前我国农村金融市场处于发展的初期阶段,金融产品结构、市场规模与监管手段相对滞后。作为农村合作金融机构最主要环节的信贷业务总是风险频发,由于历史包袱较重、法人治理
目的:观察以中西医结合治疗异位妊娠临床疗效。方法:将108例异位妊娠患者随机分为2组,对照组51例,采用西药甲氨蝶呤(MTX)治疗;治疗组57例,在对照组基础上加服宫外孕协定中药方治疗。
血小板是临床上常用的血液制品,尽管已采用很多方法来保证血小板输注的安全性,但仍有一些已知和未知的隐患.由于儿童,特别是婴幼儿正值生长发育阶段,各器官系统尚未成熟,与成
综合商务区的需求分析是机场航站规划的重要组成部分。文章以空港新城T5站前综合商务区为例,结合西安市及空港新城的总体规划,以及研究范围周边区域的土地利用及交通特性,针
工程造价的全过程控制是提高工程投资效益的有效途径。提出了采用网络信息平台进行工程造价全过程控制的思想,论述了基于网络信息平台的工程造价全过程控制的功能目标要求,由
<正>人们对老北京的记忆看似无形,实际上却散落在这个城市的各个角落。在记忆的河流中,那些楼房、雕塑、街衢、遗址、标志乃至北京的记忆看似无
随着人类社会的不断进步,我们对于各种能源的需要越发明显,能源危机开始出现,而太阳能作为一种取之不尽用之不竭的清洁的可再生能源,日益受到人们的关注。作为利用太阳能的一种有