论文部分内容阅读
基因调控网络的构建是功能基因组研究中最具挑战性的课题之一,是目前生物信息学的研究热点。微阵列技术的发展,为基因调控网络的研究提供了数据基础。通过利用机器学习和计算机算法构建基因调控网络,可以帮助了解生物细胞和组织之间复杂的调控关系,发现细胞内的调控模式,进而在系统尺度上理解生命进程。基于贝叶斯理论的图模型以其坚实的理论基础,知识结构的自然表述,灵活的推理能力以及方便的决策机制使其应用范围越来越广泛,成为了构建基因调控网络的一种有力工具。 针对当前基因调控网络构建研究中的热点问题,本文开展了基于非平稳数据基因调控网络构建的研究,主要的研究成果和创新点如下: (1)由于基因表达数据受芯片数量、质量、实验设计、噪声和测量误差等因素的影响,其数据中所含的信息是有限的。针对这一特点,本文通过引入网络能量函数,提出了一种多源数据融合的方案。该方案主要采用了两种方法来融合多种生物先验知识的数据源。第一种方法是直接把多种生物先验知识通过各自的网络能量函数来进行融合;第二种方法是先把多种的生物先验知识通过D-S证据理论进行组合,然后再运用网络能量函数实现融合。 (2)利用动态贝叶斯网络进行建模的时候是限制在时间序列数据产生的分布是平稳的这一条件下进行的。针对这一限制,本文提出了一种基于多源数据融合构建非平稳基因调控网络的算法。该算法在高斯混合模型中,结合网络能量函数和改变点过程,利用可逆跳跃马尔科夫蒙特卡罗抽样算法,把整个非平稳过程分解成若干平稳的子片断,推断网络参数随时间变化的网络结构,以及先验数据对网络的影响,从而提高了重构网络的可靠性和覆盖率。 (3)针对基因调控存在时延和基因调控网络结构随时间变化的客观现象,本文提出了一种构建时变结构的非平稳基因调控网络的算法。该算法引入了基因调控时延机制,利用时延互信息计算出各基因对之间的最大时延,借助L1正则化Logistic回归模型和高阶线性回归模型来学习网络结构随时间变化的基因调控网络。 本文针对不同的问题,提出了相应的解决办法和算法,对非平稳基因调控网络的构建方法进行了深入探讨。在仿真数据和实验数据上测试这些算法,并对所构建的基因调控网络进行性能评价。通过与已有方法的比较和生物学意义的分析,证明了本文所提出的基因调控网络构建方法的有效性。