基于结构方程模型的因果分析算法研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:pennate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,探索和发现观测变量间的因果关系在数据科学界受到了广泛的关注,了解事物间的因果关系相对于相关关系或其他统计关系在医学、经济学、社会学等领域都更加有研究价值。目前,无论是基于条件独立性还是基于结构方程模型都涌现出了一批经典的因果分析模型,但基于条件独立的方法都将产生马尔可夫等价类,因此本文主要研究基于结构方程的因果推断模型。我们主要做了以下两个工作:(1)在结构方程模型中,给定两个变量X和Y,其假设结果变量Y是原因变量X和噪声变量N的函数,通过合适的模型限制后,我们可以发现在两个因果方向上的不对等关系,进而推导出正确的因果方向。但目前,大部分的研究都关注于变量的数据类型均属于同一类型,即都为连续随机变量或离散随机变量。在本文中,我们关注当两个变量的数据类型不相同,即一个为离散随机变量另一个为连续随机变量时,如何推断其因果方向。我们提出应用于混合数据的加性噪声模型,由原因变量与噪声变量仅在正确因果方向上独立的条件,根据信息熵理论,推导出前向模型和后向模型之间的不对称性并提出因果判断准则。在给定数据的条件下,提出离散回归算法和连续分类算法用于计算残差熵,并在符合模型假设的模拟数据和近似符合模型假设的真实数据集上验证了模型的有效性。(2)在大规模的因果对的分析问题中,单个的基于结构方程模型的算法由于模型假设对观察数据的限制,其在分析多个由不同数据生成机制产生的数据对的因果关系上效果并不理想。因此在给定训练数据的前提下,可以用机器学习方法训练模型学习因果数据间的统计特性,作为监督学习对数据对的因果关系进行预测。我们提出将基于结构方程模型的算法作为特征,通过标准化、离散化、重标记等操作对数据进行预处理,提取特征并用逻辑回归、随机森林、XGBoost这些算法训练模型并在测试集上进行预测,取得了比以往研究更好的实验结果。
其他文献
背景与目的冠状动脉钙化(coronary artery calcification,CAC)是终末期肾脏病(end stage renal disease,ESRD)患者常见的并发症,在透析患者中的发生率可达68.3%,在维持性血液
相较于李梦阳诗学研究而言,后世学者对他的散文研究少有人问津,这不得不说是一大遗憾。从古代散文发展的整体脉络上来看,李梦阳作为“一代之宗”,力挽明代文风颓废,使文风为
《金瓶梅》作为我国第一部文人自创的白话小说,具有极大的开拓性,在中国小说史占有举足轻重的地位,历来是小说界研究的一大焦点,伴随着小说问世而来的,是《金瓶梅》评点的诞
“线”是中国画造型的基本手段,作为塑造形象的元素,它同时也承载着画家对大自然的感受与思想情感。山水画的“线”与中国画的其它画种一样,来源于书法用笔,毛笔、宣纸等工具及丰富的技法,使得“线”具有特殊的美感,赋予了山水画“骨法用笔”的品质要求,奠立了山水画最根本的精神力量的基础。“线”,表现了山水物象的外形和结构,体现了山水的外在美和本质美,表现了画家丰富的思想和情感。画家通过自己对大自然的感受和理解
随着人工智能等技术的兴起,无人驾驶成为未来汽车发展的一个重要方向。但是,由于制造成本和使用安全性等方面的限制,无人驾驶车辆的应用与普及仍有很长的一段路要走。激光雷
疲劳失效是工程实际中最重要的失效形式之一,而且疲劳失效发生之前往往不会伴随明显的迹象,但却能导致灾难性后果以及产生巨大的经济损失,近年来,疲劳失效问题也得到了越来越
目的:本研究拟通过观察术后牙周组织恢复情况以及最终修复效果来评价数字化导板指导下牙冠延长术在前牙区修复中的应用效果。材料和方法:回顾2018年3月至2020年3月间于浙江大
在各类绿色清洁环境能源中,海洋波浪能具有能量密度大、能源分布广泛等特点,因此,海洋波浪能采集成为科学家们研究的热点问题。要保证在不同波浪条件下波能采集系统都能达到最优效率,需要进行各种参数的测量和控制。因此,开发测控系统平台对加速海洋波浪能的开发应用具有较重要的理论意义和工程实用价值。论文结合NI CompactRIO嵌入式系统与LabVIEW软件平台,研制了一套波浪能量采集控制系统,并就相关基本
核天体物理中重元素是如何产生的,是研究的重点问题之一。恒星中,由Fe到U的元素约一半是s过程产生的,其中由Fe到Zr的元素主要由弱s过程合成。弱s过程核合成中,58Ni含量非常丰
为了使用户获得更好的上网体验,电信运营商在不断提升网络传输速度的同时也在不断提升网络管理能力。大客户能够为运营商带来巨大的收益,一直受到运营商的重点关注,因此,电信运营商建立大客户网管系统,为大客户提供更高效、精准的服务。现阶段,大客户网管数据呈现出海量、复杂、多样等特性,使告警分析工作愈加困难。大数据技术能够提高海量复杂数据的分析效率,因此,建设一个能够综合分析网络告警和故障特征、及时发现网络故