信号Pathway预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:henan8810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统生物学是21世纪生命科学领域中最前沿和最具有挑战性的学科,研究重点将不再是单个的生物分子的结构和功能,而是生物分子之间所存在的大量复杂的相互作用关系。这些相互作用的数据构成的多层次复杂生物网络中蕴含着丰富的生命系统运行机制的知识,挖掘这些隐藏的知识成为当前系统生物学的主要任务之一。鉴于生物系统的复杂性和目前的技术手段的限制,人们还无法实现完整的生物网络体系的构建,因而更青睐于对局部网络的预测。pathway属于生物网络的初级形式之一,也是构成复杂网络的基础,因此,pathway预测已成为近年来系统生物学的研究热点之一。Pathway是细胞中共同完成一个生物过程的一系列生物分子之间的相互作用或功能关系,主要包括代谢pathway、信号pathway、调控pathway三类,它们是细胞的增殖、分化、代谢、凋亡等过程的重要调控方式,pathway预测研究对于理解生命系统中的生物过程以及疾病的早期诊断等都具有十分重要的意义。本文的研究目标是利用计算的方法来挖掘特定物种中的pathway。本文从对所获得的生物数据进行充分分析的基础上,鉴于生物数据所具有的容量大、噪声高、非线性等特点,选择了最适合处理这类数据的机器学习方法作为计算的手段,并对常用的机器学习算法进行了系统的理论研究和讨论,提出了基于机器学习的pathway预测的新方法,主要包括:用Markov链等统计模型和EM算法对pathway拓扑结构进行预测的方法;用微分方程模型和粒子群优化算法对pathway动力学模型进行预测的方法;用进化计算的手段识别序列motif的方法。其中pathway拓扑结构的预测是从定性的角度来揭示生物分子之间的相互作用关系,而pathway动力学系统模型的预测则是从定量的角度来反映生命过程的时空特性,这两种预测方法将为有不同需求的生物研究提供有意义的参考。本文的主要工作如下:(1)对系统生物学及生物网络预测进行了简介,对pathway预测研究进行了全面综述。介绍了pathway预测研究的产生背景、应用领域、研究现状、面临的挑战和发展趋势等。这些内容的讨论和分析为新算法的研究提供了必要的目标和方向。(2)对系统生物学中常用的统计模型及机器学习算法进行了论述和分析评价。具体包括:极大似然估计和Bayes参数估计的概率论基础;Markov链的特性和应用;隐Markov模型(HMM)的概率理论和HMM模型中的估值问题、解码问题、参数估计问题及其解决方法;EM算法的工作原理和工作过程,并探讨了用EM算法处理有缺失数据的优化问题的解决思路;分析了遗传算法和粒子群算法的数学基础和实现技术,并探讨了用这两种进化算法解决参数优化问题的技巧和改进方法。其内容为研究目标的具体实现方法提供了坚实的算法理论基础。(3)针对目前单纯使用微阵列实验数据进行pathway拓扑结构预测易产生较大误差的问题以及许多预测方法中存在的计算量大,方法复杂,不易实施等问题,提出了一种简单易行的且可融合多种数据形式如生物实验数据、文献检索结果、专家知识等的pathway预测新方法。本方法以基因间的调控概率作为状态转移矩阵建立一阶Markov链模型,将所获得的数据样本视为是采样自同一模型的Markov过程,根据Markov链模型的定义,给出由此模型产生这组数据样本的似然函数,并在使该似然函数值最大化的约束下,得到模型参数的估计值。本算法巧妙的利用了EM算法的思想,通过求期望值和最大化值迭代的方式解决了在样本数据部分缺失的情况下估计模型参数的难题。MAPK/Erk pathway的重构实验验证了本算法的有效性,同时也显示了在模型初始化过程中引入先验信息会显著提高预测的准确性。(4)针对大部分pathway拓扑结构预测方法中只能推断基因的调控关系而不能推断基因的调控方向的问题,本文提出了基于HMM模型的调控方向预测的新方法,弥补了许多预测方法的不足,使预测更具有生物学意义。用一组信号pathway重构实验证明了本算法的有效性。(5)针对pathway的动力学模型预测算法存在的模型复杂、参数估计困难等问题,提出了基于粒子群优化的新方法。该方法首先在现有化学反应及分子相互作用基础上选择微分方程作为pathway的动力学模型,然后根据已有的定量数据应用粒子群算法估计模型的动力学参数。本文的方法能得到全局最优解,克服了HJA算法只能搜索到局部最优解的缺点,并且比用梯度下降法和遗传算法等实现的预测算法有更快的收敛速度。通过一个信号pathway的动力学仿真实验,验证了算法的有效性,同时也显示出本算法在解决非线性约束优化问题和多参数估计问题中的实用性。(6)针对基于启发式的motif识别方法,如Gibbs采样和MEME等存在的计算代价大、易于陷入局部极小、预测精度低等问题,提出了基于遗传算法的motif识别新方法,本方法提出了位置权值矩阵作为表示motif的模型,设计了遗传算法中的染色体编码方法,并对遗传操作的过程进行了以下几方面的改进:在适应度评估中加入了某些碱基会连续出现的生物特性,并且允许motif中少量碱基发生变异,这在一定程度上提高了motif预测的精度;初始种群中的个体不完全由随机方式产生,而是有少量的个体来自于多序列比对,这样会加快算法收敛的速度;提出了基于适应度和个体浓度的选择算子,克服了遗传算法中易出现的未成熟收敛问题。将本文算法应用于50条人工序列、12条啤酒酵母转录因子RAP1的共调控基因启动子序列、18条大肠杆菌转录因子CRP的共调控基因启动子序列,三组实验结果均验证了本文算法的有效性。本文的研究成果为解决pathway预测问题提供了更有意义的方法和手段,为生物实验提供了更多的指导和帮助。另外,本文的研究结果也丰富了机器学习理论的应用研究,在概率分析、参数优化以及进化计算方法改进等方面的研究具有一定的理论意义和应用价值。尽管本文在pathway预测研究中做了一些探索工作,也取得了一些成果,但这些方法对于系统的诠释pathway的复杂信息来讲可能是微不足道的,诸如对于具有反馈环的pathway预测以及多pathway间的crosstalk预测等问题都需要寻找更好的解决方案,这些也将是未来的努力方向。
其他文献
切换系统是一类由若干个连续或离散子系统或连续和离散子系统和一个作用在其上的切换法则组成的混合系统。它有着广泛的实际背景和复杂的动态行为,从而引起了国内外学者的普
采用问卷调查法、访谈法、直接提问法、数据分析法等调查研究方法对河南省各地级市、县市的全民健身路径进行调查,分析路径的具体使用情况和各种间题。比较客观真实地分析河南
摘要:对大学生科技创新团队培养的研究要打破常规思维,从创新团队成员自身出发进行内因研究,以创新成果为载体,依据创新扩散理论,从创新内容、传播渠道、传播时间以及传播效果等方
用修正的Synder人头体模几何模型和ICRU—46中的材料数据,用MCNP-4B程序对0.0253eV、1keV、2keV、10keV、100keV、1MeV单能中子束,0.2、0.5、1、2、5、10MeV单能光子束,以及
信息化时代,图书的使用期限正在逐渐缩短。为加快图书更新、提高流通速度和办馆效益,图书馆藏书剔旧工作是馆藏建设中的一个重要环节,已成为图书管理的一项常规工作。根据高
本文采用文献资料法针对河北联合大学体育教学中竞技教育的缺失进行了因素分析,结果表明与民众对竞技教育的不理解、导向式教育等因素有关。提出了构建正确的竞技教育思想、
结合连续流小试 ,对膜 生物反应器运行过程中 ,活性污泥沉降性能的变化及其对膜污染的影响进行了研究 .结果表明 ,随着运行时间的增长 ,该系统内丝状菌大量繁殖 ,活性污泥沉
在现代工业生产中,为提高生产效率、降低生产成本、提高产品质量等,普遍要求实现电气设备的自动化和智能化。为了解决复杂的工业现场控制类问题,一般选择嵌入式集散电气控制
科学仪器远程操控系统的建设可以实现科学仪器更高效的共享,有效地整合科学仪器设备资源,支持多人异地实时操作仪器实验,提升仪器使用方式的多样性。本文针对系统构建过程中
倾斜传送带在工农业生产中有许多应用,关于该模型构建的物理问题往往综合性较强,涉及摩擦力、物体与传送带间相对运动、能量变化等物理知识,是中学物理教学的难点,也是新课程