论文部分内容阅读
大数据时代的到来,因果关系推断算法技术在经济学领域、互联网社交网络领域、医疗大数据领域等都得到了广泛的应用。随着日益增长的海量数据以及数据结构高维复杂化趋势,处理高维数据的因果关系推断问题受到国内外专家学者的极大关注。高维数据问题是在行业信息智能化遇到的普遍性问题,解决该领域的相关问题迫在眉睫,已经成为机器学习领域的研究热点问题。本文应用D分离、有向无环图、图分割与变量独立、条件独立性、ANM模型等理论分析工具,对高维数据的因果关系推断问题展开了研究。本文的主要研究内容如下:1、在绪论中对因果关系推断问题的研究背景、研究意义进行了阐述。并总结了因果关系推断问题的早期研究成果,对当前该领域的研究现状及研究热点问题进行了分类描述,同时简要介绍了对因果关系研究所涉及的一些理论分析工具,最后给出了本文的研究内容及研究意义。2、研究了高维因果网络的快速划分方法。针对目前高维数据的因果关系推断速度不理想的问题,本文提出了一种快速划分因果变量的方法:我们提出了一种新颖且高效的因果变量划分方法,该方法能够利用条件独立性测试递归地将原始数据集划分为若干个较小的子数据集,同时保证每一个子数据集都没有破坏原始数据集中相应的D分离性质,因此可以利用现有的因果推断算法分别推断每一个子数据蕴含的因果关系信息,并在之后整合成完整的因果网络图。相对于现有的因果推断方法,该方法采用了一种有针对性的分治策略,在提高了对高维数据因果关系推断效率的同时也保证了准确率。3、研究了基于高维因果网络推断因果方向的方法。针对目前高维数据在给定因果骨架结构的前提下对因果方向推断准确率仍然不高的问题,本文提出了一种推断因果方向的方法:首先定义了三种因果子结构,分别是ODS(单度结构)、NTS(非三角结构)、TES(含三角形的结构),并证明任何高维网络都可以由该三种基本结构图组成。在这个基础下,重点研究了三种基本结构的因果关系推断方法;然后把高维网络分成若干个因果子图,并与三种基本子结构对应,对子图进行因果关系推断;最后,合并若干子图,排除冗余边,形成了完整的因果网络图。该方法在高维数据因果关系推断中的准确率要显著优于现有的方法。4、研究了基于混合加噪声模型与条件独立性检测的因果方向推断算法。针对第三章提出的算法的时间复杂度较高的问题,提出了一种高效的利用V结构性质以及加噪声模型残差独立性性质对因果方向进行推断的方法:算法在第三章基础上进行了改进,在因果子结构学习过程中,首先判断如果目标子结构属于ODS(单度结构),则依据加噪声模型残差独立性性质对因果方向进行推断;然后如果属于NTS(非三角结构),则利用基于V结构性质进行推断;如果属于TES(含三角形的结构),则先利用V结构性质对其中NTS的边进行方向推断,大量的实验表明,先用V结构能够推断出大部分的边,而剩下的部分包含在三角形结构的则利用加噪声模型进行方向推断;最后整合构建成完整的因果网络图。该方法在第三章算法基础上,时间效率上得到较大程度的提升。5、研究了一种基于分裂合并策略的大规模因果推断方法。针对目前高维数据因果推断算法在速度和准确率都不大理想的情况下,本文提出一种使用标准条件互信息(NCMI)的基于约束的方法:首先利用SADA方法将高维网络分割成若干个子图;然后对每个子图,利用条件互信息来检测节点之间的依赖关系或独立性来重构因果无向图的思想,利用 ANM 来检测因果骨架中每个节点与相邻节点之间的方向;最后合并若干子图,排除冗余边,形成了完整的因果网络图。该方法在高维数据下有良好的可伸缩性和算法有效性。