针对拓扑网络事件序列的因果发现算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:levmg2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于观测数据发现变量背后的因果关系是许多学科所研究的重要问题。其中,事件序列作为一种重要的数据类型,是由连续时间域上的离散事件组成,常以各种行为记录,系统日志,异常告警等形式出现在经济、社会科学、通讯系统等应用场景中。基于事件序列发现不同事件类型之间的因果关系,能够帮助人们进行生成机制分析,根因定位,事件预测等研究。然而基于多变量事件序列数据,发现事件类型之间的因果关系是一项具有挑战性的任务。一方面,现有针对事件序列的因果发现方法存在难以引入因果先验,算法结果过于稠密的问题,在稀疏、时间精度低的数据上,难以保证结果的可靠性。另一方面,在许多现实世界的场景中,特别是在研究由拓扑网络产生的事件序列数据时,经常会遇到不同的事件序列样本间存在拓扑依赖的情况,在这种情况下一个事件不仅受到其历史的激励或抑制,而且还会受到其拓扑邻居的影响。而现有的方法,如多变量霍克斯过程,大多假设序列样本满足独立和相同的分布的假设,这使其无法建模描述事件序列之间的拓扑依赖关系,导致无法检测到拓扑网络中,跨节点传播的因果影响,从而引入混淆因子,造成因果结构的错误检测。针对现在方法存在的难以有效引入因果先验,结果可靠性不足的问题,本文提出了基于霍克斯过程的两步稀疏优化算法(HP_TSSO,Hawkes Processes-Two Step Sparse Optimization)用于检测发现事件序列背后的格兰杰因果关系。HP_TSSO算法通过构造基于贝叶斯信息准则的目标函数,保证因果结构稀疏性,并利用基于EM算法与爬山法的迭代优化算法,引入因果先验,进一步提高模型的可靠性。本文还通过将HP_TSSO推广到离散时间域,解决了低时间精度事件序列数据的建模问题。而为了应对在拓扑事件序列上,不同序列样本间拓扑依赖所带来的检测结果不稳定的问题,本文对基于霍克斯过程的两步稀疏优化算法(HP_TSSO)做了进一步的改进。本文先从卷积的角度出发重构了霍克斯过程,提出了针对拓扑网络事件序列的拓扑霍克斯过程模型(THP,Topological Hawkes Processes),在拓扑维度的图卷积和时间维度的时域卷积之间建立了联系,填补了现有模型无法引入事件序列背后拓扑结构信息的空缺。进一步地,通过对HP_TSSO进行推广,本文提出了一种基于拓扑霍克斯过程的两步稀疏优化算法(THP_TSSO,Topological Hawkes Processes-Two Step Sparse Optimization)用于学习拓扑事件序列背后的格兰杰因果关系,在引入事件序列背后拓扑信息的同时,保证因果结构稀疏性。本文针对拓扑网络事件序列的因果关系发现问题展开研究,主要研究内容及贡献如下:1.提出了基于霍克斯过程模型的两步稀疏优化算法(HP_TSSO)用于发现事件序列背后的因果关系,并将其推广到离散时间域上。在似然度的框架下,引入贝叶斯信息准则惩罚项作构造目标函数,并利用期望最大化算法以及爬山法,迭代优化模型的参数和因果结构,在保证优化效率的同时,有效地引入因果结构先验。2.提出针对拓扑网络事件序列的拓扑霍克斯过程模型(THP)。在霍克斯过程的基础上,以卷积的形式重构其强度函数,通过将霍克斯过程中时域的卷积运算推广到时空域,引入个体之间的拓扑信息,刻画拓扑邻居所产生的事件序列带来的影响,用于应对拓扑事件序列不满足独立同分布假设所带来的问题。3.对HP_TSSO进行改进推广,提出了基于拓扑霍克斯过程模型的两步稀疏优化算法(THP_TSSO)用于发现拓扑网络事件序列背后的因果关系。对比实验结果表明,本文提出的基于拓扑霍克斯过程模型的因果发现算法在模拟数据及真实数据上均优于对比算法,能够有效剔除冗余因果关系,引入拓扑结构信息,因果结构先验,发现事件序列背后的格兰杰因果关系。
其他文献
从观测数据中推断出变量之间的因果关系是当今数据科学研究的热点。随着科学技术的不断进步,金融经济、社交网络、智慧医疗、大数据智慧城市等领域通过互联网交互产生了海量而复杂的数据。如何从这些观测数据中有效地挖掘出有价值的信息,探索数据中潜在的因果机制在科学研究的可解释性和辅助决策等方面都起着重要作用,它促进了很多科学领域的研究进展,如生物医学、社交网络、金融领域等。近年来,出现了很多从观测数据进行因果结
学位
传统互联网在服务质量、资源利用率、管控能力和传输效率等方面暴露出诸多弊端,智融标识网络通过全网多空间、多维度资源的智慧融合实现网络资源的灵活分配和个性化服务的按需供给,为新型网络架构提供一种可行的研究方向。在智融标识网络中,通过引入控制器集群可以有效解决单一控制器存在的可扩展性和可靠性问题。但当控制器与交换机的映射关系是静态配置时,波动的网络流量会导致集群负载分布不均,部分控制器可能过载以及响应时
学位
<正>数字人民币搭载以区块链作为底层技术的智能合约,是最为重要的创新之一,随着数字人民币试点的不断推进,智能合约的应用场景也越来越广泛。智能合约具有信用塑造功能,央行借助智能合约可以巩固货币的国家信用,提升履行职能的效率。文章通过梳理货币智能合约的技术架构与运行逻辑,发现治理货币智能合约存在的难题,据此从监管模式、监管重点、监管科技等方面提出对策,以提升数字人民币的治理水平。
期刊
行人重识别(Person re-identification)是一种利用计算机视觉技术进行行人图像检索的技术。随着人工智能技术的兴起,行人重识别技术得到了极大的发展。基于神经网络的行人重识别技术,需要先从各个摄像头中收集大量的行人图像,并对大量的行人图像进行标注。随后利用已标注的行人图像进行深度网络的学习,最终获得一个行人图像的检索器。但这类方法始终面临着各种困难:深度网络的学习需要大量的训练样本
学位
光频率梳由一系列离散等间距的周期脉冲序列组成,由于其频谱谱线数量多,而且谱线频率间隔相同,能够精准的测量未知频率,在激光雷达、光通信、天文学中有着大量应用。在正常色散区基于非线性Kerr效应产生的光频率梳具有平坦性好,泵浦效率高,相干性好等特点。基于非线性Kerr效应产生光频率梳主要有基于无腔光纤/光波导或微环谐振腔两种方式,本文研究了双频激光泵浦无腔非线性光波导基于超连续谱展宽产生光频率梳,以及
学位
离散事件系统是指由离散的事件触发而引起状态转移的一类动态系统模型。了解当前的运行状态对系统安全尤为重要,状态估计的可测性研究是离散事件系统的一个重要研究方向,并被成功应用于自动控制系统。在现实生活中,系统的状态和事件往往具有模糊和不确定的主观性,模糊集引入到自动机为模糊离散事件系统奠定理论基础,在生物医学和自动控制系统中具有广泛应用。本文研究了模糊离散事件系统下的当前状态和初始状态的可测性问题。针
学位
聚类分析是数据挖掘领域中的重要研究方向。在过去的数十年中,出现了大量聚类算法,其中,谱聚类由于其在非线性可分的数据中的优异表现而被广泛应用。此外,随着互联网的不断发展,网络中产生的数据也越来越多,形成大数据。因此,如何将谱聚类算法应用到大数据中,挖掘其中的有用信息变成十分重要的研究课题。然而,谱聚类算法存在严重的可伸缩性问题,谱聚类需要极高的时间复杂度和极高的空间复杂度来计算和存储相对应的拉普拉斯
学位
目的:探讨翻转课堂护理带教对产科胎心监护操作技能的影响。方法:选取2018年至2022年入职产科的新护士为研究对象,在胎心监护操作技能培训中使用翻转课堂护理带教模式,共计50人次。比较翻转课堂护理带教前后新护士的胎心监护知识、操作技能考核评分、对教学模式的认可程度以及学习能力变化。结果:翻转课堂护理带教后,新护士在胎心监护知识、操作技能考核评分高于带教前,学习能力评分高于带教前,差异均有统计学意义
期刊
在传统的图像分类问题中,训练一个模型需要依赖大量完备的标注数据。然而,随着现实世界的数据量不断增长,对数据进行人工标注变成了一项极其繁琐冗杂的工作。零样本学习可以有效缓解上述问题,具体而言,零样本学习可以在没有不可见类图像或视觉特征作为训练输入的情况下,利用有限的语义信息,对不可见类图像进行预测分类。因此,研究零样本学习可以使得算法、模型减少对图像类标签的依赖,减少人工标注数据的时间成本,极大地提
学位
时序行为数据广泛存在于各类应用系统中。如何挖掘时序行为数据中有意义的行为模式,捕捉用户潜在需求,进而提出更好的预测、推荐或运营策略受到了研究者们的广泛关注。本文提出的面向时序行为的潜在状态学习方法致力于实现离散稀疏行为数据的特征表达,在此基础上对用户的潜在状态及其复杂的时序依赖关系进行建模和学习,从而实现更好的时序推荐。然而,时序行为的状态建模和表征学习主要面临着以下三个挑战:(1)用户真实的行为
学位