基于递归分治算法的因果结构学习研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:jacklong1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从观测数据中推断出变量之间的因果关系是当今数据科学研究的热点。随着科学技术的不断进步,金融经济、社交网络、智慧医疗、大数据智慧城市等领域通过互联网交互产生了海量而复杂的数据。如何从这些观测数据中有效地挖掘出有价值的信息,探索数据中潜在的因果机制在科学研究的可解释性和辅助决策等方面都起着重要作用,它促进了很多科学领域的研究进展,如生物医学、社交网络、金融领域等。近年来,出现了很多从观测数据进行因果结构学习的工作,如基于条件独立性检验约束的方法在因果忠诚性等假设下,从一个完全无向独立图出发,通过遍历搜索条件候选集来进行条件独立性检验进行删边操作,然后利用V结构和一些定向规则来确定其余无向边的因果方向,最终得到一个因果结构图。然而,大部分这类方法在高维可观测数据中会存在两个方面的问题:1)只适用于样本量足够大的情况,在高维数据中的因果结构学习计算效率和准确率都比较低;2)它们无法完全区分马尔可夫等价类,即存在部分因果边无法识别。为了降低高维数据下因果结构学习的难度,提高因果关系识别的准确率,本课题以非线性非高斯数据为研究对象,提出了一种基于递归分治的因果关系发现算法(causal decomposition reconstruction,CADR),有效地解决了高维小样本的因果结构学习问题,提高了因果关系学习算法的运行效率和因果结构的准确率。具体来说,本研究的工作内容如下:(1)在高维数据的因果结构学习效率方面,根据递归分治的中心思想,把高维数据集递归分解为多个更小的子集,直到无法再分解或子集的大小达到阈值为止。在这一过程中,算法通过减小变量集空间,即缩减条件独立检验中条件候选集的搜索空间,减少条件独立检验的次数,进而提高效率,并在较低维的条件候选集中得到更精确的因果结构骨架。同时,在非线性数据下,为了更快更好地学习到因果骨架,CADR算法引入了随机傅里叶特征近似核条件独立性检验方法。(2)为了解决传统基于约束的方法无法识别马尔可夫等价类问题,在非线性非高斯的数据假设下,基于非线性非高斯模型的因果方向不可逆性和可识别性,在不可分解的子集中有效地识别出马尔可夫等价类的因果方向。仿真数据和真实因果结构数据的实验表明,CADR算法不仅能在高维数据上提高因果结构学习的效率,而且能有效地区分马尔可夫等价类,识别出因果方向,学习得到的因果结构准确可靠。
其他文献
农药、植保机械与施药技术为植物化学保护的三大支柱,其中施药技术是连接农药学科和植保机械学科的关键环节,是农药从研发到田间应用的“最后一公里”。农药科学使用并不是一个简单的选择农药和施药量的药物学问题,而是涉及作物学、植物保护学、农业工程学、气象学等多学科交叉的系统工程。本文就农药雾滴雾化与运动特性、沉积与分布状态、流失与飘失行为,以及害虫行为与农药雾滴雾化运动和沉积分布关系等方面的研究进展展开综述
期刊
精确的环境感知系统是自动驾驶及机器人技术实现的关键,其中基于激光雷达点云数据的3D目标识别是视觉感知领域的重要任务。由于激光雷达点云数据的无序性、稀疏性、旋转性等特点,传统机器学习方法、聚类方法和卷积深度学习方法很难直接对雷达点云数据进行特征提取。本文基于现有研究提出了一种基于信息融合的3D目标识别算法,对当前的点云目标识别方法进行改进。首先,针对点云数据体素化带来的细节丢失问题,提出了一种体素预
学位
阿尔茨海默症(Alzheimer’s Disease,AD)是一类不可逆的大脑神经退行性疾病,其患病率随着年龄的升高呈显著增长趋势,被认为是导致死亡的第七大原因,目前仍然缺乏明确有效的生物标志物,只能通过早期干预延缓AD病情的发展。功能核磁共振影像(Functional Magnetic Resonance Imaging,fMRI)是研究脑部疾病的重要医学工具,可以观察大脑相关区域的功能变化,而
学位
移动互联网和自媒体的兴起使得互联网中的多媒体数据快速增加,人们对于爆炸式增长的、形态各异的数据应接不暇。如何建立一套自动化理解数据内容和分析数据关系的智能工具来帮助人们更好地利用网络多媒体数据资源成为重要问题,多媒体数据分析因而受到广泛关注。作为多媒体数据分析中两个基础任务,跨模态检索和多视角聚类旨在分析异构数据内容之间的关系,成为支撑下游应用的关键技术。本文从这两个方面入手,对多模态数据内容相关
学位
随着互联网技术的不断发展,人们的日常生活活动中产生了海量数据,这些数据中蕴含着巨大的价值,从数据中挖掘出有价值的信息是许多领域的研究课题,其中不同于相关关系,因果关系是非常有价值的信息,得到因果信息可以实现干预,反事实等行为,因而从数据中发现因果关系是许多领域的关键研究课题。因果关系发现的传统做法是使用干预或通过随机实验,这在许多情况下过于昂贵、过于耗时,甚至是不可能的,因此通过分析观测数据来揭示
学位
随着物联网和传感器网络的飞速发展,大量分布式电子传感节点广泛存在于生活的各个角落,如何为此类分布式传感器供电成为当前的关键问题。传统电池因持久性差、污染环境、灵活性低等问题有很大的局限性,基于多种物理效应的纳米发电机的出现为高效收集环境中的能量提供了可能,然而单一模式的纳米发电机面临能量转化效率低,输出性能差等问题。针对以上问题,本文提出了三种不同结构的混合纳米发电机并展示了其应用场景。论文的主要
学位
偏导射流伺服阀主要的结构特点为阀体阀芯部位两端封闭,主要功能为在液压系统中可以将微弱的电控制信号转换为大功率的流量或压力输出信号,它的动态响应快,控制精度高,压力和流量的增益线性度好。但偏导射流阀在使用过程中会受到大范围的、剧烈的温度冲击。温度冲击会直接影响到伺服阀关键零部件和油液性能等变化,在伺服阀上产生复杂的综合作用。偏导射流伺服阀在剧烈温度冲击作用的工作环境下,伺服阀的各项工作指标会呈不同程
学位
医疗信息物理融合系统(Medical Cyber-Physical Systems,MCPS)是一种用于现代医学领域的信息物理融合系统(Cyber-Physical Systems,CPS),在各种疾病的预防和检测中发挥着重要作用。每个MCPS都具备嵌入式控制设备和独立的网络系统,使用物理空间作为物理基础,通过感知设备向网络空间提供感知信息,并接收来自网络空间的控制信息对物理设备进行控制。考虑到医
学位
<正>近年来数字人民币在中国大陆发展迅速,使用场景由向公众派发数字红包、当地零售消费付款到公共服务缴费等,目前试点城市已多达23个,覆盖了全国1/5的人口。为了深化数字人民币的应用,2022年4月,深圳市地方金融监督管理局印发《深圳市扶持金融科技发展若干措施》,
期刊
聚类是无监督学习中一种方法,它可以把数据切分成多个组别,并让较为相似的数据样本分到同一组别内。但是,传统的聚类方法大多是基于单个视角的数据,在多视角数据环境下往往不能取得令人满意的聚类性能。为解决这个问题,便提出了多视角聚类。多视角聚类的目的是整合多个视角数据的信息,获得更加本质的样本关系,进而求解出更加准确的分组。多视角图学习聚类是多视角聚类中的一类方法,该类方法会先学习出一个相似度图,并利用该
学位