论文部分内容阅读
如何有效挖掘数据中蕴含的因果关系是自然科学研究的基础问题。统计学中变量之间的相关性不等于因果关系。变量之间的因果关系应当具有可预测性,可解释性,以及可干预性等特征。Pearl等人在贝叶斯网的理论基础上,通过附加因果马尔科夫等假设提出了因果模型的基础理论。该因果模型采用有向无环图来直观地描述,并采用贝叶斯网络作为基本的推理工具。在贝叶斯网络结构学习之后,因果结构学习与推断成为近年来新的研究热点。因果结构学习与贝叶斯网络结构学习均是从观察数据中去寻找一组变量的结构,但是因果结构学习得到的是变量之间的因果关系,而不仅是相关性。因果结构学习中一个基本的问题是因果关系的可识别性。近年来,Shimizu等人提出的LiNGAM模型与Hoyer等人提出的加噪因果模型表明,噪音的分布与变量关系的非线性等特征为因果关系方向的识别提供了重要依据。基于此,因果结构学习可分为判断是否存在因果关系与识别因果关系的方向两个基本问题。LiNGAM算法是Shimizu等人提出的线性非高斯因果模型LiNGAM模型经典的结构学习算法,适用于变量数目不多且样本数目充足的因果结构学习。然而本文发现LiNGAM算法所采取的剪枝策略仅依据假设检验等统计学理论,并未考虑到马尔科夫条件这个因果模型的基本假设,并且存在时间复杂度高,在稀疏图上剪枝准确率相对较低的问题。剪枝目的是判断因果关系是否存在,这是识别因果关系的基本问题之一。本文根据贝叶斯网的条件独立性测试的方法,提出了新的剪枝策略。该策略依据因果顺序,将变量的马尔科夫毯作为条件集判断变量之间的条件独立性进行剪枝。由于偏相关系数较为准确的反应判断线性因果模型中变量之间的条件独立性,该策略采用偏相关系数检验作为条件独立性测试的方法。该策略仅需两次条件独立性测试来判断因果关系是否存在,所需的条件独立性测试的次数远小于Spirtes等提出的PC等经典的贝叶斯网络结构学习算法。本文在模拟数据上与LiNGAM算法采用的剪枝算法进行了充分的对比实验。实验表明本文算法准确率高,误剪枝率低。