鲁棒性异常检测研究与可解释性学习

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jwz1270
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,每时每刻在各行各业都有海量的数据产生,如何对这些海量数据进行分析、挖掘是一个关键的问题。异常检测是数据挖掘领域中的研究热点,它的目标是查找数据集中行为与预期有很大差异的对象,即异常点。异常检测技术在网络通信、金融风控、工业生产等领域安全方面均具有重要的作用。然而,在真实场景中采集到的数据往往含有大量噪声,这些噪声会使得异常检测模型无法学习到数据真实的正常模式,最终影响模型的准确性。为解决这一问题,本文深入研究了不同噪声场景下的鲁棒性的异常检测模型,以及异常检测结果的可解释性问题。本文的主要内容与创新点包括如下三个方面:第一,针对时间序列数据上的标签不可靠的问题,本文提出了一种基于多示例学习的多变量时间序列异常检测框架MILAD。该算法使用深度循环神经网络以捕获时序数据中的时间依赖性并提取判别表征,并利用多示例学习损失引导模型关注到正常数据上的标签噪声。最终在真实时序标签噪声数据集上的实验结果表明算法具备很好的异常检测能力,也能够实现提前预警,具有重大实践意义。第二,针对数据中存在大量噪声的数据不可靠问题,本文提出了一种基于密度估计的自监督异常检测算法。该算法使用数据密度作为自监督信息,针对正常分布和异常分布分别建模,通过贝叶斯公式计算异常分数。根据密度估计方法的不同,该算法可进一步分为基于全局密度估计的分布建模和基于密度同步学习的分布建模。最终结果表明基于密度估计的自监督异常检测能够取得具有竞争力的效果,同时结果相对稳定,解决了数据不可靠的问题。第三,针对目前研究中异常检测模型可解释性较差的问题,本文提出了一种基于尾端概率的异常检测结果解释方法。该方法基于Copula函数对数据的联合分布建模,计算样本在特定子空间中的尾端概率并作为子空间的异常分数,即COPOD-Z分数,进而找出异常分数最高的子空间,为异常检测结果赋能可解释性。最终结果表明基于COPOD-Z分数的得分-搜索方法能够对异常检测结果做出充分、合理的解释,同时在算法效果和运行时间上取得一个较好的平衡。
其他文献
重载列车在长大下坡道循环制动时,空气制动的性能差异较大、列车纵向冲动较大,偶发断钩事故,给机车乘务员操作造成极大困难。以LKJ2000机车运行监控装置记录的朔黄铁路数据和相关线路条件为基础,建立重载列车牵引计算模型,对不同制动性能的列车提出相应的优化操作方案。采用理论分析与现场运用需求相结合的研究方法,分析重载列车长大下坡线路操作规程,并基于重载列车空气制动线路的试验数据模型,以50 kPa减压量
期刊
2,2,6,6-四甲基-4-哌啶醇是合成受阻胺类光稳定剂的关键中间体,广泛应用于化工工业生产中。目前文献报道的合成方法中,以丙酮和氨为初始原料先加成环化合成2,2,6,6-四甲基-4-哌啶酮,再经液相催化加氢还原为2,2,6,6-四甲基-4-哌啶醇的工艺路线最为便捷,但是该工艺过程反应副产物多,收率较低,且没有相关的机理研究报道,催化剂的筛选具有随机性。另外,虽然2,2,6,6-四甲基-4-哌啶酮
学位
关于“物”与事件,海德格尔在其《物的追问》开篇就提到:“物”(Ding)同样意味着‘事情’(thing),但随着‘物’一词从动态的“事件”转向了静态意义上的物,物(Thing)一词也转向了存在(Being)。换言之,即当我们问一个“物”是什么的时候,就变成了对其存在抑或其“所是”的追问。柏拉图、亚里士多德用各自的方式将整体的“存在”成功地运用到了具体之物中,并将其逐渐实体化。对“物”的实体化描述,
学位
随着湿地可持续运行管理方面的问题越来越突出,湿地净化能力逐渐减弱且使用寿命缩短,其能否可持续发展成为湿地建设与恢复工作的一个短板。以洱源县海菜花湿地为例,以“强化湿地处理能力和发展湿地经济”为核心,采用“浅表湿地+强化潜流湿地”水质净化工艺,建立了湿地监测体系,完善海菜花的产业链,利用海菜花盈利弥补湿地运维费用,形成了人工湿地良好的可持续发展模式。鉴于该模式应用的工程正在项目建设施工阶段,建议后期
期刊
<正>近日,国家乡村振兴局、中央组织部、国家发展改革委、民政部、自然资源部、住房城乡建设部、农业农村部联合印发《农民参与乡村建设指南(试行)》(以下简称《指南》),对完善农民参与乡村建设机制进行部署,同时规范农民参与乡村建设的程序和方法,为广泛依靠农民、教育引导农民、组织带动农民共建共治共享美好家园提供了工作指引。
期刊
<正> 流态化床电极系利用处于流态化状态的导电颗粒作工作电极,通过插入床中的馈线电极得到电荷,在颗粒表面上进行电化学反应的电解设备。跟普通平板电极相比,电极比表面积大。普通平板电极的比表面积约为16m-1,流态化床电极的比表面积约为3500m-1,这导致槽电流大大增加,因而每单位体积、单位时间的产量高,设备体积小,投资费低。由于颗粒的运动和碰撞,围绕颗粒的扩散层变薄,提高了传质速度,使床中具有更均
期刊
番茄(Solanum lycopersicum)是设施栽培中最重要的蔬菜作物之一,然而生产中常常遭受各种病原菌的侵害,如丁香假单胞菌番茄变种(Pseudomonas syringae pv.tomato DC3000,Pst DC3000)引发的细菌性叶斑病等,往往造成产量品质的下降及其带来的农药过量使用问题,是制约我国设施作物安全高效优质生产的瓶颈问题。国内外研究发现,CO2加富不仅可以提高作物
学位
多药耐药以及由肿瘤微环境诱导的肿瘤部位药物难渗透仍是肿瘤治疗面临的重要难题。随着纳米技术的发展,这些肿瘤治疗难题有了新的解决思路。介孔二氧化硅纳米颗粒(mesoporous silicananoparticles,MSNs)具有良好的生物相容性、高药物装载量、易修饰的特点,但功能较为单一。而金属材料无论是金属离子还是金属相关纳米颗粒,由于多种多样的物理化学性质,在肿瘤治疗领域被广泛研究。本文基于锌
学位
<正>通过挖掘地理教材,抓住切入点;拓宽视野思维,提升着力点;注重实践体验,找准落脚点来帮助学生树立正确的资源观、人口观以及环境观及可持续发展的思想理念。环境教育是以人类与环境的关系为核心,以解决环境问题和可持续发展为目标教育活动。具有正确的环境观已成为未来世界公民的必备素质之一。基础教育阶段是学生成长的关键期,
期刊
物理层网络编码(Physical-layer network coding,PNC)理论利用电磁信号的叠加特性,大幅提升了通信系统的吞吐量,引起广大学者的关注。将PNC技术应用到通信网络中,用以满足用户个性化、多元化的需求,也成为当前的研究热点。在实际通信环境中,存在大量的中继节点,又因电磁信号的广播特性,源节点广播的有效信息除了合法中继节点可以接收外,非法节点同样可以窃听接收。在此背景下,本文对
学位