论文部分内容阅读
肠道微生物是一个复杂、动态的生态系统,在人体健康中扮演着重要的角色。从微生物时间序列数据推断微生物之间的动态相互作用,对于理解人体肠道内微生物的合作和竞争机制是十分重要的。随着高通量测序技术的进步,海量微生物组时间序列数据得以公开,成为系统推断微生物之间因果关系的基础。本文从多元线性回归模型、状态-观测模型以及最大熵估计模型的基础上从发,研究了基于微生物组时间序列数据的因果关系推断方法。主要贡献如下:首先,提出一种结合了深度玻尔兹曼机和多元线性回归的模型来推断微生物之间的因果关系。深度玻尔兹曼机是一个由随机神经网络组成的概率模型,通过条件概率和边缘概率得到微生物之间的因果关系。通过将深度玻尔兹曼机与图正则化向量回归模型进行结合,得到的因果网络具有更好的可解释性,可以同时起到筛选子集和组聚类的作用。使用一组抗生素扰动下的肠道微生物组时间序列数据作为实验数据、以预测平均平方误差作为评价标准,验证了所提出方法的可行性。其次,提出了一种基于状态-观测概率模型的方法来推断微生物之间的相互作用。在状态-观测模型的参数估计中我们引入贝叶斯自适应Lasso算法,该算法是一个层次概率模型,加入自适应惩罚对参数进行约束解决了参数和不确定性的结合问题。这一改进可以更好地解决数据噪音问题,使得模型具有较好的可解释性和预测能力。本研究使用抗生素扰动下的肠道微生物时间序列数据和女性阴道微生物时间序列数据,以预测平均平方误差作为评价标准,验证了所提出模型比现有方法在预测精确度上有一定的提高。最后,提出一种最大熵估计模型来推断微生物之间的因果关系。已有模型都是有参估计模型,这需要根据观测样本建立相对应的方程模型,一般需要大量的参数估计。针对此问题,本研究提出一种无参估计方法--最大熵估计模型,进行微生物之间的因果关系预测。该方法建立在联合熵公式的基础上,通过线性优化得到最大值点,从而通过得到的条件转移熵推断微生物之间的因果关系。最后在抗生素扰动的肠道微生物时间序列样本数据上,验证了最大熵方法的预测性能。本研究提出的三种模型为基于时间序列数据推断微生物因果关系提供了新的方法。