【摘 要】
:
多元时序数据广泛存在于各行各业,如石油、医疗和气象等。人们基于不同的目标或需求部署海量传感器,以获得目标系统,如设备、人体和天气的特征,并通过数据分析获得有用的结果。时序模式按顺序组织系统的各种事件/状态,直观地揭示它们之间的时间相关性,因此具有结构简单,可解释性强的优点。为获得有趣的、具有潜在价值的时序模式,人们主要开展了三方面的研究工作。其一是量化模式重要性。人们引入了频率、权重、实用性等概念
论文部分内容阅读
多元时序数据广泛存在于各行各业,如石油、医疗和气象等。人们基于不同的目标或需求部署海量传感器,以获得目标系统,如设备、人体和天气的特征,并通过数据分析获得有用的结果。时序模式按顺序组织系统的各种事件/状态,直观地揭示它们之间的时间相关性,因此具有结构简单,可解释性强的优点。为获得有趣的、具有潜在价值的时序模式,人们主要开展了三方面的研究工作。其一是量化模式重要性。人们引入了频率、权重、实用性等概念设计了具有丰富语义的序列模式。其二是模式匹配约束。流行的约束包括一般性匹配,一次性匹配和无重叠匹配,其中后两者约束条件能够使匹配次数相对于模式长度的单调递减。其三是模式挖掘算法。多数算法利用Apriori性质进行剪枝,以获得较高的执行效率。然而,频率所表达的语义比较贫乏,权重和实用性的设置繁琐且严重依赖于专家经验。如何针对工业数据,建立模式挖掘体系,以获得具有现实意义的模式,辅助专家决策,是一系列亟待解决的问题。本文从模式表达、学习和推理三个方面,探讨了多元时序上的三支序列模式挖掘问题及其在油田大数据等行业中的应用。模式表达方面,针对单元和多元时序数据,分别提出了三支模式、三支状态转移模式等概念。它们丰富了频繁时序模式表达的语义,降低了对专家经验的依赖,扩展了一般性匹配条件下的时序模式挖掘。模式学习方面,针对三支模式、三支状态转移模式等,设计了高效的时序模式发现算法。它们仅需要用户设置支持度阈值。模式推理方面,开发了高效的时序关联规则挖掘、基于三支模式的预测、三支异常检测算法。它们扩展了三支模式的适用场景。将这些模式与算法应用于石油大数据和其它行业,获得一些初步的结果,证实了它们的有效性。主要贡献有四个方面。一、单变量序列上的频繁三支模式挖掘。定义了新的三支字母表,将原始字母表划分到强、中、弱三个集合,分别包含重要的,次要的,以及不重要的元素。基于该字母表定义了新的三支模式,其中相邻元素之间的通配符区间能显著增强模式的灵活性。重要元素直接成为三支模式的分量,但不能被三支通配符区间匹配;次要元素既可以成为此模式的分量,又可以被该区间匹配;不重要元素可以被该区间匹配,但不能成为模式的分量。基于水平、垂直结构,设计了两种高效的频繁三支模式挖掘算法。通过指定置信度阈值,用户还可以获得具有时间序列信息的符号型变量关联规则。二、多元时序的频繁状态转移模式挖掘。定义了状态字母表,其中每个状态是“属性-值”对的集合。类似于单变量序列的三支模式挖掘,通配符区间能够匹配任意状态。定义了频繁闭状态集和最大状态集的概念,以有效缩减原始状态字母表的大小。设计了两阶段的挖掘算法,依次得到频繁状态和频繁状态转移模式。三、多元时序的频繁三支状态转移模式挖掘。根据两个状态频繁度阈值,将状态字母表划分为强、中、弱三个子集,分别包含重要的,次要的,以及不重要的元素。基于三分状态字母表,定义了三分状态序列模式及匹配规则。类似于单变量序列上的频繁三支模式挖掘算法,设计了针对频繁三支状态转移模式算法。四、状态转移概率分布学习以及三支异常检测。第一个算法利用所得模式构造状态转移概率图,并通过模式匹配,按图索骥获得下一时段中每种状态的概率。第二个算法根据频繁模式,导出可信的时序关联规则,用以构建新的状态转移概率图,并以此给出决策支持。第三种算法使用最近邻策略进行预测。此外,基于马尔科夫链,考虑模式频率设计了三支异常检测算法。最后,本文使用石油工程、环境监测、工业设备等领域的四个数据集上进行了实验。结果表明:各类模式都具有良好的可解释性;所提出的算法都具有良好的效率、可扩展性以及可定制性;状态预测算法能获得可靠的状态概率分布,并提供强大的决策支持;以及三支模式,三支状态转移模式,三支时序关联规则不仅具有更好的普适性和更高的灵活性。
其他文献
研究背景肾细胞癌(Renalcellcarcinoma,RCC)是泌尿系统常见的肿瘤之一。2021年,美国估计有76080例新增病例,死亡13780例。肾透明细胞癌(Clear cell renal cell carcinoma,ccRCC)是最常见的组织学亚型,约占所有病例的75%-80%。早期、局限性的ccRCC治愈率相对较高,患者5年生存率超过90%,一旦进展为远处转移性疾病,其5年生存率则
伴随着技术的革新,光电器件逐渐向着微型化、高性能化演变,在此过程中,对光电材料的尺寸和性能要求越来越高,二维材料因其优异的物理特性而有望代替传统半导体成为未来纳米级光电子器件的候选材料。近年来,二维过渡金属硫族化合物(Transition Metal Dichalcogenides,简称TMDs)由于其优异的光学和电学性质及在光电子器件、能源转化和存储等领域的潜在应用而受到研究者的广泛关注。之前有
研究背景:肺动脉高压(Pulmonary hypertension,PH)是一种包括多种疾病的综合征,长期的肺组织缺氧状态,肺血管收缩和肺动脉的血管重构,肺血管阻力的进行性升高和肺动脉压(Pulmonary arterial pressure,PAP)升高,导致肺动脉壁变厚、肺动脉管腔变窄和右心室后负荷增加的血流动力学改变,这是PH共同的病理生理学变化机制。如果不尽早诊断、尽早治疗,很快会导致右心
研究背景颅内动脉瘤是较常见的脑血管疾病,也是常见的脑血管意外原因,及时和准确的诊断,对于预防颅内动脉瘤脑意外和及早治疗有重要意义。计算机断层扫描血管造影(Computed Tomography Angiography,CTA)是目前颅内动脉瘤一线诊断的主要手段。CTA需要人工判断,难免存在一定漏诊、误诊以及个体判断差异性,并且费时费力,有时需要采用更灵敏和特异的数字减影血管造影(Digital S
背景:胼胝体发育异常(corpus callosum abnormality,CCA)严重可导致癫痫、中重度神经或智力发育迟缓等,其预后与遗传学病因密切相关。下一代高通量测序技术作为高通量及高分辨率新技术,目前在CCA的产前遗传学诊断应用中尚处于探索阶段。CCA发病率低及临床样本取材困难导致目前CCA致病机制的研究极少。目的:1.从细胞遗传学水平、基因组水平及单基因水平分别探讨染色体核型分析、染色
随着页岩气的大规模开发油基钻井液被普遍使用,钻井过程中产生大量的具有难降解、生物毒性等特点的油基钻井液固废(简称OSDC)。目前主要采取“固控分离+油水分离+热解析+水泥回转窑”等方法处理,但受处理效率、经济指标和环保要求的限制,难以达到国家对含油污泥3R(资源化、减量化和无害化)处置的要求。为此,论文从OSDC热处理改性出发,以其作为外掺料配制固井水泥浆,采用XRF、XRD、SEM等测试方法对O
全固态锂电池作为新一代锂离子电池,具有更高的安全性能和更大的能量密度,成为未来电动汽车动力电池的理想选择,其最大特点是采用固态电解质取代了传统的有机液态电解质。但是,固态电解质的引入使得电池内部的接触界面变为固-固界面,这种界面本质上具有接触面积小、接触状态差的特性,严重影响了锂离子的传导,阻碍了全固态锂电池的发展。因此,改善界面接触是提高全固态锂电池电化学性能、促进其商业化发展的关键。在众多提高
石油企业在我国经济社会发展过程中扮演着重要角色,其健康发展与石油企业内部人力资源管理密切相关。近年来,随着我国油气资源逐渐劣化、开采成本上升、油气价格波动,企业生产经营环境不确定性增加,加之油气开采作业环境艰苦、劳动强度大、安全风险高等因素的影响,石油企业员工队伍尤其是技术人员的稳定性问题突出,员工流失现象越来越严重。如何改进石油企业人力资源开发与管理工作,增强员工对企业的向心力和凝聚力,稳定石油
钻井工程中约80%的钻井成本是消耗在仅占总进尺20%的难钻地层中。高硬塑性、强研磨性难钻地层钻井速度慢的问题,已成为严重制约油气资源勘探开发效率的技术瓶颈。本文所提出的轴倾式PDC钻头破岩工具,其钻头体回转轴线与钻柱间具有轴倾角,万向轴与钻头体直接固定连接。这种结构能够实现稳定可靠的交变轨迹切削运动,所形成网状非光滑井底,切削齿可自然侵入地层并使岩石更容易发生体积破碎,进而有效提高钻头的破岩效率。
高强韧材料在抗冲击防护材料、空间材料、精密结构件等领域具有广阔的应用前景。随着高精尖技术不断突破,对结构材料的性能也提出了更高要求。然而,传统合金往往通过微量添加元素来调控性能,其性能获取主要依赖于单一主导元素,这为突破现有性能极限带来较大阻碍。多基元合金是一类基于“高熵”理念开发的复杂合金,通过在更广阔的成分空间中通过调控化学无序获得独特的理化性能。本论文将从“高熵-多主元”的设计理念出发,调控