论文部分内容阅读
系统生物学是21世纪生命科学领域中最前沿和最具有挑战性的学科,研究重点将不再是单个的生物分子的结构和功能,而是生物分子之间所存在的大量复杂的相互作用关系。这些相互作用的数据构成的多层次复杂生物网络中蕴含着丰富的生命系统运行机制的知识,挖掘这些隐藏的知识成为当前系统生物学的主要任务之一。鉴于生物系统的复杂性和目前的技术手段的限制,人们还无法实现完整的生物网络体系的构建,因而更青睐于对局部网络的预测。pathway属于生物网络的初级形式之一,也是构成复杂网络的基础,因此,pathway预测已成为近年来系统生物学的研究热点之一。Pathway是细胞中共同完成一个生物过程的一系列生物分子之间的相互作用或功能关系,主要包括代谢pathway、信号pathway、调控pathway三类,它们是细胞的增殖、分化、代谢、凋亡等过程的重要调控方式,pathway预测研究对于理解生命系统中的生物过程以及疾病的早期诊断等都具有十分重要的意义。本文的研究目标是利用计算的方法来挖掘特定物种中的pathway。本文从对所获得的生物数据进行充分分析的基础上,鉴于生物数据所具有的容量大、噪声高、非线性等特点,选择了最适合处理这类数据的机器学习方法作为计算的手段,并对常用的机器学习算法进行了系统的理论研究和讨论,提出了基于机器学习的pathway预测的新方法,主要包括:用Markov链等统计模型和EM算法对pathway拓扑结构进行预测的方法;用微分方程模型和粒子群优化算法对pathway动力学模型进行预测的方法;用进化计算的手段识别序列motif的方法。其中pathway拓扑结构的预测是从定性的角度来揭示生物分子之间的相互作用关系,而pathway动力学系统模型的预测则是从定量的角度来反映生命过程的时空特性,这两种预测方法将为有不同需求的生物研究提供有意义的参考。本文的主要工作如下:(1)对系统生物学及生物网络预测进行了简介,对pathway预测研究进行了全面综述。介绍了pathway预测研究的产生背景、应用领域、研究现状、面临的挑战和发展趋势等。这些内容的讨论和分析为新算法的研究提供了必要的目标和方向。(2)对系统生物学中常用的统计模型及机器学习算法进行了论述和分析评价。具体包括:极大似然估计和Bayes参数估计的概率论基础;Markov链的特性和应用;隐Markov模型(HMM)的概率理论和HMM模型中的估值问题、解码问题、参数估计问题及其解决方法;EM算法的工作原理和工作过程,并探讨了用EM算法处理有缺失数据的优化问题的解决思路;分析了遗传算法和粒子群算法的数学基础和实现技术,并探讨了用这两种进化算法解决参数优化问题的技巧和改进方法。其内容为研究目标的具体实现方法提供了坚实的算法理论基础。(3)针对目前单纯使用微阵列实验数据进行pathway拓扑结构预测易产生较大误差的问题以及许多预测方法中存在的计算量大,方法复杂,不易实施等问题,提出了一种简单易行的且可融合多种数据形式如生物实验数据、文献检索结果、专家知识等的pathway预测新方法。本方法以基因间的调控概率作为状态转移矩阵建立一阶Markov链模型,将所获得的数据样本视为是采样自同一模型的Markov过程,根据Markov链模型的定义,给出由此模型产生这组数据样本的似然函数,并在使该似然函数值最大化的约束下,得到模型参数的估计值。本算法巧妙的利用了EM算法的思想,通过求期望值和最大化值迭代的方式解决了在样本数据部分缺失的情况下估计模型参数的难题。MAPK/Erk pathway的重构实验验证了本算法的有效性,同时也显示了在模型初始化过程中引入先验信息会显著提高预测的准确性。(4)针对大部分pathway拓扑结构预测方法中只能推断基因的调控关系而不能推断基因的调控方向的问题,本文提出了基于HMM模型的调控方向预测的新方法,弥补了许多预测方法的不足,使预测更具有生物学意义。用一组信号pathway重构实验证明了本算法的有效性。(5)针对pathway的动力学模型预测算法存在的模型复杂、参数估计困难等问题,提出了基于粒子群优化的新方法。该方法首先在现有化学反应及分子相互作用基础上选择微分方程作为pathway的动力学模型,然后根据已有的定量数据应用粒子群算法估计模型的动力学参数。本文的方法能得到全局最优解,克服了HJA算法只能搜索到局部最优解的缺点,并且比用梯度下降法和遗传算法等实现的预测算法有更快的收敛速度。通过一个信号pathway的动力学仿真实验,验证了算法的有效性,同时也显示出本算法在解决非线性约束优化问题和多参数估计问题中的实用性。(6)针对基于启发式的motif识别方法,如Gibbs采样和MEME等存在的计算代价大、易于陷入局部极小、预测精度低等问题,提出了基于遗传算法的motif识别新方法,本方法提出了位置权值矩阵作为表示motif的模型,设计了遗传算法中的染色体编码方法,并对遗传操作的过程进行了以下几方面的改进:在适应度评估中加入了某些碱基会连续出现的生物特性,并且允许motif中少量碱基发生变异,这在一定程度上提高了motif预测的精度;初始种群中的个体不完全由随机方式产生,而是有少量的个体来自于多序列比对,这样会加快算法收敛的速度;提出了基于适应度和个体浓度的选择算子,克服了遗传算法中易出现的未成熟收敛问题。将本文算法应用于50条人工序列、12条啤酒酵母转录因子RAP1的共调控基因启动子序列、18条大肠杆菌转录因子CRP的共调控基因启动子序列,三组实验结果均验证了本文算法的有效性。本文的研究成果为解决pathway预测问题提供了更有意义的方法和手段,为生物实验提供了更多的指导和帮助。另外,本文的研究结果也丰富了机器学习理论的应用研究,在概率分析、参数优化以及进化计算方法改进等方面的研究具有一定的理论意义和应用价值。尽管本文在pathway预测研究中做了一些探索工作,也取得了一些成果,但这些方法对于系统的诠释pathway的复杂信息来讲可能是微不足道的,诸如对于具有反馈环的pathway预测以及多pathway间的crosstalk预测等问题都需要寻找更好的解决方案,这些也将是未来的努力方向。