论文部分内容阅读
如今,人们在科学、娱乐、商业和工业各领域收集和挖掘大量数据,并对其进行研究和应用.就像Rutherford D.Rogerd等人所讲:“这个世界淹没在了数据中,我们淹没在了信息的海洋里,却渴求着知识”.海量信息亟待整理,取其精华去其糟粕.人们渴求仅用较少参数恢复一组数据的基础信息,实现挖掘数据隐含的因果机制.近年来,人们提出了从非实验数据中发现因果结构的一些方法.这些方法对数据生成过程进行了各种假设,以便纯粹从观测数据中估计因果关系.本文以提高大数据背景下连续变量的因果推断能力作为研究目标,并且从客观地估计因果顺序、估计隐变量、构建因果模型新框架、提出非线性因果结构等四方面展开研究.本文基于观测数据的因果关系学习,为该研究领域中正确学习因果结构和估计因果效应提供了有效补充.主要内容和创新点如下:1.路径分析作为描述变量之间因果依赖关系的主要方法,被广大研究者采用.针对路径分析采用人为给定因果排序的缺陷,以及“几乎没有一种方法能研究和推断所有因果关系”的观点,本文提出了一个集成的因果路径识别方法.首先,对清洗之后的原始数据本文采用一个直接的线性非高斯无环模型(DirectLiNGAM)方法客观估计变量之间的因果顺序和初始连接强度矩阵.针对初始连接强度矩阵不便于模型解释的现象,本文采用线性模型选择方法中的Adaptive lasso削减冗余有向边,重新获得连接强度矩阵.根据消减后的连接强度矩阵,递归模型和因果路径图分别被建立和绘制.通过对因果路径图检验,找到了未通过模型拟合度检验的有向边和变量,经过改变方向、删除变量等方法,获得了拟合度高于前者的因果模型和因果路径图,并且估计了变量之间的直接、间接效应和总效应.2.在上面路径分析中因果路径识别方法的基础上,本文接着研究了隐变量存在情况下,隐变量与观测变量、观测变量与观测变量之间的因果推断问题.文章基于探索性因子分析(EFA)理论和路径分析(PA)思想,提出一个用EFA-PA建立隐变量与观测变量、观测变量与观测变量之间的线性结构因果模型框架的方法.EFA-PA方法与结构方程模型(SEM)建立线性因果模型的思想接近,但是与结构方程模型相比具有3个优点:一是基于主成分分析方法的EFA清晰地识别了隐变量并估计了隐变量的个数,易于建立测量模型(即隐变量与观测变量之间的线性结构因果模型);二是基于PA方法估计了观测变量之间的线性结构因果模型,弥补了SEM没有充分挖掘观测变量之间因果关系的空缺;三是减少了SEM在拟合度不高时调整因果路径的盲目性.进一步,针对现实中观测变量之间的因果关系不完全都是线性模型的现象,本文释放EFA-PA中观测变量之间线性因果结构的限定,提出了观测变量之间关系为非线性(包括线性)时的因果模型,即广义非线性可加因果模型(GNACM),并给出了GNACM的定义、估计方法及优点.3.针对传统SEM在大数据与统计机器学习背景下的三方面缺陷,文章提出了一个扩展的SEM方法,即ESEM.ESEM框架由三类模型构成:(1)结构模型(隐变量之间的线性结构因果模型);(2)测量模型(隐变量与观测变量之间的线性结构因果模型);(3)观测模型(观测变量之间的线性结构因果模型).ESEM的优点在于补充了隐变量因果方向的识别、添加了观测变量因果关系估计、充分挖掘了观测变量所隐含的科学信息.最后本文通过在实验中利用多种拟合指标对ESEM模型进行检验、调试,获得拟合度较好的ESEM模型,并得到在观测数据服从高斯分布,干扰变量服从非高斯分布时该方法的普适性.