高维数据下的几类因果推断算法研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:DirtySnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来,因果关系推断算法技术在经济学领域、互联网社交网络领域、医疗大数据领域等都得到了广泛的应用。随着日益增长的海量数据以及数据结构高维复杂化趋势,处理高维数据的因果关系推断问题受到国内外专家学者的极大关注。高维数据问题是在行业信息智能化遇到的普遍性问题,解决该领域的相关问题迫在眉睫,已经成为机器学习领域的研究热点问题。本文应用D分离、有向无环图、图分割与变量独立、条件独立性、ANM模型等理论分析工具,对高维数据的因果关系推断问题展开了研究。本文的主要研究内容如下:1、在绪论中对因果关系推断问题的研究背景、研究意义进行了阐述。并总结了因果关系推断问题的早期研究成果,对当前该领域的研究现状及研究热点问题进行了分类描述,同时简要介绍了对因果关系研究所涉及的一些理论分析工具,最后给出了本文的研究内容及研究意义。2、研究了高维因果网络的快速划分方法。针对目前高维数据的因果关系推断速度不理想的问题,本文提出了一种快速划分因果变量的方法:我们提出了一种新颖且高效的因果变量划分方法,该方法能够利用条件独立性测试递归地将原始数据集划分为若干个较小的子数据集,同时保证每一个子数据集都没有破坏原始数据集中相应的D分离性质,因此可以利用现有的因果推断算法分别推断每一个子数据蕴含的因果关系信息,并在之后整合成完整的因果网络图。相对于现有的因果推断方法,该方法采用了一种有针对性的分治策略,在提高了对高维数据因果关系推断效率的同时也保证了准确率。3、研究了基于高维因果网络推断因果方向的方法。针对目前高维数据在给定因果骨架结构的前提下对因果方向推断准确率仍然不高的问题,本文提出了一种推断因果方向的方法:首先定义了三种因果子结构,分别是ODS(单度结构)、NTS(非三角结构)、TES(含三角形的结构),并证明任何高维网络都可以由该三种基本结构图组成。在这个基础下,重点研究了三种基本结构的因果关系推断方法;然后把高维网络分成若干个因果子图,并与三种基本子结构对应,对子图进行因果关系推断;最后,合并若干子图,排除冗余边,形成了完整的因果网络图。该方法在高维数据因果关系推断中的准确率要显著优于现有的方法。4、研究了基于混合加噪声模型与条件独立性检测的因果方向推断算法。针对第三章提出的算法的时间复杂度较高的问题,提出了一种高效的利用V结构性质以及加噪声模型残差独立性性质对因果方向进行推断的方法:算法在第三章基础上进行了改进,在因果子结构学习过程中,首先判断如果目标子结构属于ODS(单度结构),则依据加噪声模型残差独立性性质对因果方向进行推断;然后如果属于NTS(非三角结构),则利用基于V结构性质进行推断;如果属于TES(含三角形的结构),则先利用V结构性质对其中NTS的边进行方向推断,大量的实验表明,先用V结构能够推断出大部分的边,而剩下的部分包含在三角形结构的则利用加噪声模型进行方向推断;最后整合构建成完整的因果网络图。该方法在第三章算法基础上,时间效率上得到较大程度的提升。5、研究了一种基于分裂合并策略的大规模因果推断方法。针对目前高维数据因果推断算法在速度和准确率都不大理想的情况下,本文提出一种使用标准条件互信息(NCMI)的基于约束的方法:首先利用SADA方法将高维网络分割成若干个子图;然后对每个子图,利用条件互信息来检测节点之间的依赖关系或独立性来重构因果无向图的思想,利用 ANM 来检测因果骨架中每个节点与相邻节点之间的方向;最后合并若干子图,排除冗余边,形成了完整的因果网络图。该方法在高维数据下有良好的可伸缩性和算法有效性。
其他文献
为解决自主移动机器人非结构化道路识别检测准确性、鲁棒性及实时性的问题,提出一种基于感兴趣区域(Region of Interest,ROI)与多层感知器(Multi-Layer Perceptron,MLP)为核
采用全生命周期的研究方法,从能源开采及加工、运输、电站运行的横向产业链和电站建设、运行、退役的纵向时间链对燃煤发电和天然气发电碳排放进行了分析,对碳减排约束下的燃
一、单位犯罪的理论溯源——历史的视角单位犯罪的产生与发展,必须从两大法系主要国家的立法与理论中去追溯。在早期的英美法系国家,法律并未规定法人犯罪问题。后来,随着资
本文通过分析和比较富硒绿豆的吸水率、萌芽率、总硒含量、还原糖含量、游离氨基酸及可溶性蛋白含量的变化,研究了超声波处理对绿豆富硒作用的影响。结果表明:随着超声波处理
文章结合制砖行业原料处理工艺的特点,阐述了姑山矿空心砖厂原料制备过程中所存在的主要问题及相应解决办法.通过对改造前后原料处理工艺的使用效果进行对比,改造后的原料处
翻译公示语时,译者应力求译文简洁明了,掌握汉英公示语的文化差异,顺从读者的接受习惯,从而得出正确的译文。
<正> 5例患者均为女性,年龄42~49岁。病程最长者16年1例,5~10年3例,3年1例。主要临床表现:口腔粘膜呈点状溃烂,中央凹陷溃疡面呈灰白色,周围粘膜颜色淡红或不红,灼痛,进食时加
[目的 /意义]针对新生代用户群体对信息检索系统的需求,提出一种游戏化信息检索系统的理论模型,实现激发用户使用检索系统的兴趣,支持用户的信息检索与交互以及鼓励用户持续
黄酮是多酚类的天然产物,广泛分布于自然界中,总数已达上万种,由于具有优异的药理作用,因此,广泛应用于医药、健康等领域,同时黄酮还常作为相关医药产品的质量控制指标。目前,复杂样品中黄酮的定量分析方法已有诸多报道,最常用的方法为高效液相色谱法(HPLC)以及高效液相色谱-串联质谱联用法(HPLC-MS/MS)。虽然这些方法均能准确定量样品中的黄酮成分,但存在溶剂耗费大、分析通量低等缺点,因此开发快速、
系统阐述了循环农业的起源、发展趋势、发展循环农业的目的与意义,分析了国内外循环农业类型的划分方法,介绍了国内循环农业的模式实践,提出了湖北省循环农业划分的建议.