【摘 要】
:
从观察数据集中发现感兴趣的变量间的因果关系是近年来科学研究中的一个备受关注的问题。但在许多真实场景中,由于时间推移、具有多种不同的来源或收集方式等因素的影响,异质数据集通常可以分为多个服从不同分布的子数据集,各个子数据集中的因果关系所对应的数据生成机制也是不同的。由于现有因果关系研究中通常含有一个潜在的假设,即仅存在一个固定的数据产生机制,因此现有的面向同质数据的因果关系发现方法无法从异质数据集中
论文部分内容阅读
从观察数据集中发现感兴趣的变量间的因果关系是近年来科学研究中的一个备受关注的问题。但在许多真实场景中,由于时间推移、具有多种不同的来源或收集方式等因素的影响,异质数据集通常可以分为多个服从不同分布的子数据集,各个子数据集中的因果关系所对应的数据生成机制也是不同的。由于现有因果关系研究中通常含有一个潜在的假设,即仅存在一个固定的数据产生机制,因此现有的面向同质数据的因果关系发现方法无法从异质数据集中还原出正确的因果函数,进而无法得到变量间正确的因果关系。在因果关系发现研究中,原因变量的分布与原因变量到结果变量的条件分布被称为因果模块,对一个因果模块的影响不会扩散到另一个因果模块上,这种特性被称为模块性。根据模块性,异质数据集中因果模块间的变化是相互独立的,而因果方向的反向中不存在模块性。因此,在本论文中,我们利用这种因果方向和其反向间的不对称性,提出了两种面向异质数据的因果方向判别方法。这两种因果方向判别方法的共同之处在于核心思路,即在两个备选的因果方向上检验其变量分布与条件分布间的独立性并进行比较,选择独立的方向为正确的因果方向;不同之处在于如何从异质数据集中得到因果模块并使其能够用于独立性检测。具体来说,本论文完成的主要工作如下:(1)形式化地定义了异质数据因果方向判别问题,分析了现有因果方向判别方法在此问题中的不足之处,并给出了使用模块性判断异质数据集中变量间因果方向的思路。(2)定义了可以描述不同类型因果模块参数的度量,即因果模块熵,在因果模块熵和前述理论分析的基础上,首先提出了两种面向异质数据的因果方向判别方法,即最大熵独立方法和最小差异方法,通过理论分析阐明提出的方法所具有的分辨因果方向的能力,并进一步改进了最小差异方法。(3)在生成的模拟数据和真实数据集上进行实验以验证最大熵独立方法和最小差异方法的效果,实验中的对比方法包括五种主流的因果关系发现方法,记录实验数据并制作图表。从实验结果可以看出,在本文实验部分所涉及的各种情况中,最大熵独立方法能够较好地判断异质数据集中变量间的因果方向,最小差异方法更是在绝大多数情况下都取得了最好的表现,总体上优于包括最大熵独立方法在内的其他各个方法,这充分验证了本文所提出方法在异质数据因果方向判别问题上的有效性和泛用性。
其他文献
微颗粒技术在生物医疗、食品化工等工业领域上有着广泛的应用,但传统微颗粒制备方法普遍存在单分散性差、形态单一等缺点。微流控能够实现对微量液体进行精准控制,具有高通量、试剂消耗小、高度集成等优势,可以解决传统方法在微颗粒制备上的问题,因此本文主要结合海藻酸盐水凝胶和微流控技术进行制备异形凝胶微颗粒的工艺研究。微颗粒基于其包裹作用和异形结构进行单细胞包裹并用于生物打印,有望解决工程器官的细胞定位不精准、
近年来,由于具有很小的模式体积和高的品质因子,回音壁模式(Whispering Gallery Mode,WGM)微腔在传感领域得到了广泛的关注,尤其是在位移传感应用中。虽然基于回音壁微腔的位移传感技术一直在不断进步和发展,但在实际应用中不仅需要提升微腔的性能,还强烈依赖于所用的传感方案。在本文中,提出了一种基于表面纳米轴向光子(Surface Nanoscale Axial Photonics,
近年来,光学自由曲面在很多领域得到广泛的应用,但由于其拥有着复杂的非回转对称结构,加工难度大。随着超精密加工技术的发展,基于刀具伺服的金刚石车削技术成为加工光学自由曲面的一种有效方法。然而慢刀伺服系统存在着加工效率低的问题,而基于柔性铰链的快刀伺服装置无法加工高低差在毫米级的光学自由曲面。因此有必要研制一种大行程、高频响的快刀伺服系统。本文的主要内容包括如下:(1)开展了大行程快刀伺服装置设计与优
近年来,航空航天技术飞速发展,地空天一体化的对地观测网络正逐步形成,与此同时,获得的高分辨率遥感图像也越来越多。高分辨率遥感图像包含丰富的地理信息,对其进行特征提取和图像理解,在城市建设、精准农业等众多领域中都有广泛的应用。语义分割对图像中的每个像素点进行分类,是对遥感图像进行处理的常用方法之一。以全卷积网络为代表的深度学习模型是语义分割领域常用方法。但由于网络设计固有的结构特性,将其应用在语义分
新空调投放到市场前需针对不同环境工况进行大量焓差实验,而实验台在创造测试所要求工况(“打工况”)的过程中需要消耗大量电量。以本文调研企业为例,作为空调测试行业的标杆,该企业每年进行空调测试需消耗约1500万千瓦时电力,电费高达1200万元人民币。若能够通过运筹优化手段合理安排测试计划以减少电力消耗,将具有较大的经济及社会价值。通过调研发现,行业内存在以下几点共性问题。首先,打工况时间与测试任务的顺
随着计算机图像处理技术的进步和各个行业对于三维模型需求的提高,三维模型已在各种领域获得广泛应用。三维模型本质上属于一种数字媒体文件,互联网的快速发展为三维模型的协同设计和数据信息共享提供了极大的便利。与此同时,互联网的快速发展也降低了不法分子非法复制、篡改、传播三维模型的违法门槛。如何有效防止三维模型的非法复制、篡改和传播,高效的保护著作人的合法权益已经成为了目前亟待解决的热门问题。目前区块链技术
随着“赣南脐橙”品牌在市场中的发展,其品牌价值不断提高,伴随而来的问题也不断加剧。果农为追求短期效益过度使用农药化肥,无良厂商进购劣质脐橙冒充赣南脐橙,使得赣南脐橙的口碑受到影响,影响经济效益,更严重的可能产生食品安全问题,危害消费者生命安全。为此,应在赣南脐橙供应链的各个阶段对数据进行记录,一旦发生质量问题,可根据供应链数据进行追责,以此驱动供应链参与方遵守市场规定,保障人民生命安全,同时维护了
随着比特币为代表的数字货币的兴起,区块链作为其底层技术也非常受到区块链业界的关注。区块链的去中心化、防篡改等特点使得其在银行等领域应用广泛,而共识算法是区块链的重要部分,对系统吞吐量、交易确认时间等方面具有重要影响。但应用于联盟链的PBFT共识算法存在缺陷,例如三阶段共识流程造成通信开销大、主节点按编号依次轮流选取、节点无法动态加入与退出等。在此背景下,本文提出了PBFT+共识算法,主要研究内容如
共享汽车随着移动互联网技术和共享经济的兴起而逐渐发展起来,作为一种新的共享出行模式在国内逐渐被推广,增加了用户对于出行方式的选择。用户对于这种新的出行方式抱着探索性的态度,这对于企业来说即是机遇又是挑战。共享汽车企业把国外分时租赁的服务经验和模式引入国内,但并没有完全适用于我国用户的实际需求。而服务设计,是可以将用户和利益相关者的需求痛点转化为可视化图形的一种研究工具。应用服务设计,能够有效的改进
随着科学技术的飞速发展,人们正快速进入人工智能的时代,智慧城市是当前研究的热点,作为智慧城市一部分的智能车辆,也是当今时代的重点研究对象之一。由于人们生活水平的提升,车辆的使用率也随之猛增,但道路交通安全的问题却越来越严重,还造成了环境的污染,如何解决这些问题成为了社会越来越关注的重点。为解决这些问题,需要重点研究如何提高车辆的自动避障能力、对周围环境变化的敏锐程度以及车辆的预判能力等方面。本文针