面向测量模型的因果关系发现算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:CDCBB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多研究者开始关注因果推断在机器学习、人工智能等领域的解释作用,并已经广泛地应用在社会科学、经济学、医疗学等领域。传统的因果关系发现大都是基于干预(interventions)或者随机实验(randomized experiments),然而现实中这种方式往往需要花费大量的人力和财力资源,有时候甚至无法完成操作。因此从观察数据中发现因果关系成为了一个重要的突破口并得到越来越多研究学者的关注。结构方程模型(Structural Equation Modeling,SEM)对于多变量分析提供一个基本的框架,同时也是一个强有力的学习因果关系的工具,因此很多学者和专家尝试利用结构方程模型,从函数与变量的关系和数据分布等角度去发现数据背后的因果关系。以结构方程模型为基础,引入到图模型中,这类模型统称函数因果模型(Functional Causal Model,FCM),也有学者称为结构因果模型(Structural Causal Model,SCM),然而现有的方法大都假设观察变量即为真实发生因果关系的变量,而忽略了测量误差带来的影响。本文针对测量模型下因果关系发现理论以及相应的实际应用进行了深入的研究。解决了线性测量误差模型下如何完整识别因果网络,如何通过测量变量恢复1-Factor测量模型(测量变量之间存在1个共同的隐变量)下隐变量间的因果结构以及N-Factor测量模型(测量变量之间存在任意多个共同的隐变量)下隐变量背后的因果结构三个方面。本文的主要贡献如下:(1)研究从含有测量误差的数据中识别完整因果网络。针对经典的LiNGAM模型存在的(a)无法解决数据噪声是高斯的情况;(b)数据含有噪声误差时因果方向判断错误的问题。本文提出了一种基于信息熵两阶段的方式解决任意分布的数据,通过引入专家知识信度比(reliability ratio)来恢复真实数据,解决了含有测量误差数据下的因果发现问题。对比现有主流算法,我们算法复杂度最低,达到O(mn2)。此外,在真实结构下的实验结果验证了我们的方法更加有效和稳定。我们还将所提出算法应用于移动基站数据中,结果进一步证明了本文算法的有效性。(2)研究1-Factor测量模型下的隐变量间因果结构估计问题。本文通过利用数据的高阶信息量特征,提出了一种可Testable的,能够发现隐变量因果信息的Triad条件。具体来讲就是:对于任意三个相关变量设计了一种伪残差(pseudo-residual),从而证明了当因果关系是线性且噪声变量是非高斯时,利用三个观察变量执行有限的独立测试后就可以判断两个隐变量谁是因变量和果变量。也就是说,Triad条件能够帮助找到隐变量并能够判断隐变量之间的因果关系。对于非高斯数据来说,对比传统的Tetrad条件,Triad条件能够得到更加丰富的隐变量因果结构的信息。此外,本文基于Triad条件提出了一种两阶段的算法去估计测量模型中潜在隐变量的因果网络。最后虚拟数据上验证了算法理论的正确性,并应用在香港股票数据上,能够发现股票数据背后的隐变量及其因果关系。(3)研究N-Factor测量模型下的隐变量间因果结构估计问题。本文考虑线性非高斯因果模型,提出了一种用来估计隐变量因果结构的广义独立噪声条件(Generalized Independent Noise,GIN)。具体来讲就是:对于两个观察变量的随机向量X和Z,测试ωTX和Z之间的统计独立性,其中ωT是基于向量X和Z之间的互协方差的参数向量。我们说当且仅当ωTX和Z统计独立时GIN成立。从因果图上来看就是,在线性非高斯隐变量模型下,如果对于X和Z来说GIN成立,那么X中的共同原因变量d-分离X和Z。同时本文证明了传统的独立噪声条件(independent noise(IN))是GIN的一个特例,即如果没有隐的混淆变量,因变量独立于与果变量跟因变量回归后的残差。进一步地,本文基于GIN提出了一种两步的算法去定位隐变量和学习隐变量间的因果次序。在虚拟数据和真实数据上的结果都说明了我们算法更加有效和可靠。
其他文献
立德树人是中国特色志愿服务的鲜亮底色,是中国特色志愿服务的重要价值取向。高校大学生是2022年北京冬奥会志愿服务的主力军,北京冬奥会志愿服务为立德树人提供了重要契机和有效途径,有助于在青年志愿者中厚植爱国主义情怀,引导青年志愿者做中华民族伟大复兴的追梦者;有助于弘扬志愿服务精神,激励青年志愿者做社会主义核心价值观的践行者;有助于传承奥林匹克精神,感召青年志愿者做人类命运共同体理念的推动者。做好20
在冬奥会背景下,推进冰雪运动进校园已经成为必然趋势,加快实施冰雪运动进校园模式能够促进我国冰雪运动更好的发展。但是在实际实施过程中面临诸多困境,冰雪场地建设不足,缺乏专业人员指导等,对冰雪运动进校园产生了不良影响。该文阐述了冰雪运动进校园模式实施的重要意义,分析当前实施过程中面临的现实困境,探讨冬奥会背景下冰雪运动进校园模式实现的具体路径,希望能够推动我国校园冰雪运动的健康发展。
在医学应用领域,制造具有高强度和自愈合特性的生物相容性材料是一项具有挑战性的工作。胶原蛋白是细胞外基质的主要成分,可以用作细胞粘附和迁移的底物。明胶是衍生自胶原蛋白的天然聚合物,由于其在生理环境中的生物降解性和生物相容性,通常用于药物和医学应用领域。然而,当生物材料应用时,胶原蛋白和明胶也具有一些缺点,主要的缺点是基于胶原蛋白或明胶的材料具有较差的机械性能、缺乏热稳定性和相对较快的降解速率。当涉及
目的:探讨中药足浴对剖宫产术后下肢深静脉血栓形成的预防作用。方法:根据研究需要,将2019年4月1日-2019年9月1日在我院行剖宫产手术的100例患者分为两组,对其中的50例参照组患者实施常规护理,对50例探究组患者在参照组基础上进行中药足浴护理。对100例患者护理前后的股静脉、腘静脉、胫后静脉等下肢静脉血流速度进行检测,并统计两组下肢深静脉血栓发生率。结果:护理前两组患者下肢静脉血流速度比较,
目的比较采用TightRope带袢钢板与皮质骨螺钉内固定治疗踝关节骨折合并的下胫腓联合损伤的临床效果。方法回顾性分析自2017-02—2019-04采用切开复位内固定治疗的66例踝关节骨折合并下胫腓联合损伤,其中36例下胫腓联合采用TightRope带袢钢板内固定(带袢钢板组),30例下胫腓联合采用皮质骨螺钉内固定(螺钉组)。比较两组术后至开始完全负重时间、术后踝与后足功能AOFAS评分、术后踝关
人工关节置换术是指利用手术方法将人工关节置换被疾病或损伤所破坏的关节面。因其具有解除关节疼痛,保持关节稳定,活动功能好[1]等优点而被广大患者接受,目前应用较广泛的是人工髋关节和膝关节置换术。随着手术的不断开展,术后并发症已越来越受到重视,特别是下肢血栓形成,如不及时
当下,小微企业获取资金困难的问题是企业一直重视的问题。小微企业是我国经济市场的重要部分,可以提高我国的就业率,并且促进GDP增长。互联网金融的快速发展改变原有的资源配置状态,使资源得到充分的配置,为小微企业开辟了新的融资渠道。
女子+67kg级从2000年我国跆拳道项目第一次入围奥运会,陈中取得首枚金牌,一直以来都是我国女子项目重点夺金级别之一。赛前的重点对手分析,是我国备战奥运会的重要工作之一。因2020年疫情原因,奥运会延期举办,该年度其他国际赛事也随之推后。2019年参加莫斯科世界跆拳道大奖赛2场,无锡世界跆拳道大满贯冠军系列赛1场,共3场比赛。本文从得分、失分、犯规特征方面剖析Nafia KUS参加这两次比赛的技
在经济转型升级和生态文明建设背景下,小微企业的生存发展要顺应绿色发展趋势,打造生态竞争力。随着数字化时代的到来,数字化赋能小微企业实现绿色发展提升其生态竞争力必将带来深远影响。为更好研究数字化环境下小微企业生态竞争力受哪些因素影响,给小微企业生态竞争力的培育提供一定的参考,在现有相关研究基础上,从小微企业外部环境与内部管理、生产及文化层面出发,对数字化环境下小微企业生态竞争力影响因素进行识别并确定
在现实信息系统中,数据类型和结构的差异性普遍存在,对于这类数据,本文称之为异质数据。异质数据所关联的对象具有数据类型和结构的多样性,使得融合异质数据是一个极具挑战的问题。根据数据特性,异质数据可分为结构异质数据和类型异质数据。结构异质数据的表示形式多样,且不同的数据之间存在非一一对应性。类型异质数据的不同数据类型具有不同的特点,离散型数据在任何两个数据点之间的个数是有限的,其处理起来更加灵活且简洁