基于数据关联性的深度异常检测方法研究

来源 :哈尔滨理工大学 | 被引量 : 2次 | 上传用户:seaboy258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于数据相关性的深度异常检测方法旨在挖掘数据样本更深层次的特征信息,通过深度学习的方法对获取的数据样本进行训练。目前,在异常检测领域传统方法和深度学习方法依然存在问题。大多异常检测方法只是对数据样本本身特征的研究,并没有考虑到数据样本之间的关联性,会丢失一些原始样本的特征,造成检测效果不理想。基于自编码器的异常检测采用重构误差作为异常分数,无法通过客观方法确定适当的权重。为了避免原始样本特征的丢失,挖掘更深层次的特征信息,以此提升最终的异常检测效果。本文通过K近邻的方法进行关联样本的构建,主要是欧氏距离、哈夫曼距离、余弦距离和皮尔逊相似度。通过距离和相似性度量方式,选定样本的K个近邻,由此构建关联样本。并设计了一种基于关联特征的自编码器模型,将原始特征空间和关联特征空间一同作为整个模型的输入,获取更多的特征信息,以此验证关联特征的有效性。为了获取更多的低维数据样本信息,解决重构误差中权重以及阈值难以确定的问题,提出了一种基于数据关联性的深度异常检测方法。该方法是在变分自编码器的基础上做出了改进,获取原始样本和关联样本的特征进行融合,通过编码阶段得到潜在均值和方差的分布,之后将噪声和该分布进行融合采样得到隐变量。在解码阶段生成的不是重构样本而是均值和方差的分布,并依据重构概率的思想,结合分布函数和重构的可变性,用于解决重构误差造成的检测效果不理想的问题。通过在公开的Cifar10和Svhn数据集的10个类别上进行实验。在AUC评价指标上,Cifar10数据集的10个类别中我们的方法与ANOGAN相比在7个类别上表现更好;与ALAD相比在全部的10个类别上表现更好;与CADGMM相比在7个类别上表现更好。Svhn数据集的10个类别中我们的方法与ANOGAN相比在全部10个类别上表现更好;与ALAD想比在9个类别上表现更好;与CADGMM相比在全部10个类别上表现更好。证明了本方法的有效性。
其他文献
采用真空蒸镀和磁控溅射技术,制备了结构为Cu/Co Pc(Cu Pc)/Al的薄膜二极管和结构为Cu/Co Pc(Cu Pc)/Al/Co Pc(Cu Pc)/Cu的薄膜晶体管,对制备的器件在不同湿度环境下的电学性能进行了测试,通过计算表征器件的物理参数,探究该器件的工作原理,解析湿气对器件的影响机理,以及该器件作为湿度传感器的可能性。首先测试了有机薄膜二极管的在不同湿度环境下的特性。结果表明,水
学位
智能体(agent)广泛应用于人类难以到达的领域,如地形探索、恶劣环境搜救等,这些复杂任务对agent路径寻优提出挑战。单agent难以完成复杂路径寻优任务,学者开始对多agent路径寻优展开研究,基于显式通信进行精准计算的精确算法虽然可以求得最优结果,但只有给出严格数学依据才能得出最优解,算法时间复杂度随问题规模和agent数量增长,只适用于整体复杂度较低且路线较少的情况;启发式算法虽然能够在可
学位
聚合物基纳米电介质具有优异的绝缘和力学性能,广泛应用于微电子、电气绝缘和新能源等领域。随着5G信息时代来临,集成电路产业飞速发展和尖端科技不断革新,对聚合物基纳米电介质的综合性能(尤其是绝缘性能)提出更高的要求。UiO-66(典型的Zr-MOFs)作为一种近年炙手可热的新型纳米材料,其比表面积大和易于修饰的特点,可以用于制备新型聚合物基纳米电介质材料,但目前相关报道较少。本文利用溶剂热法制备UiO
学位
螺纹插装式液压阀是继板式阀、管式阀、叠加式阀和二通插装式阀之后的又一种液压控制阀,其具有零泄漏、结构紧凑、加工改型相对容易、连接简单、重量轻、成本低等优点,有非常广阔的应用前景,是液压控制技术的一个重要发展方向。本文以一款螺纹插装式电磁换向阀为研究对象,采用多物理场耦合的仿真方法,对其流量压力特性、高温高压形变、电磁驱动性能和过渡过程特性等进行了系统的仿真研究与理论分析。研究成果对于该类阀的设计、
学位
随着大数据和人工智能的快速发展,数据也随之变得愈来愈复杂,人们开始对这些多样的数据展开研究。正因为数据的多样性,不确定数据也随之衍生出来。数据的不确定性主要包括两方面,一方面是数据自身的不确定性,另一方面是数据属性级别的不确定性。本文主要针对确定数据和不确定数据做了相应的研究。首先针对确定数据在聚类时随机选取数据作为初始聚类中心以及对初始聚类中心敏感的问题,提出了一种新的模糊C均值聚类算法。然后针
学位
阿尔兹海默症(Alzheimer’s Disease,AD)作为一种威胁老年人生命健康的退行性疾病,伴随着记忆衰退和认知障碍,对人们的生活和社会的发展都产生极大的影响。全球人口老龄化日益严重,有关AD的研究也逐渐成为医学领域的热点。由于AD早期症状不明显,等到发现时多处于中期甚至晚期阶段,导致患者错过最佳的治疗时间。因此,尽早的发现和治疗是延长患者存活时间的关键。由于广泛使用的机器学习模型在各个A
学位
密度峰值聚类算法在人工确定聚类中心之后仅通过一次遍历就能实现非聚类中心点的有效分配。该算法思想简单且具有较强的实用性,但仍存在一些亟待解决的问题,如基于全局参数dc计算局部密度和斥群值且聚类结果对dc敏感,无法自适应确定聚类中心,处理密度不均数据集时准确率较低,处理复杂流型结构数据集时容易错误分配剩余样本点等。本文针对上述问题提出对应的改进策略。针对密度峰值聚类算法存在的dc敏感,需人工确定聚类中
学位
COVID-19冠状病毒是2019年开始在全球范围内传播的一种大规模传染性呼吸道疾病。COVID-19不仅对我们的生活、日常习惯和医疗保健系统产生了普遍有害的影响,而且还会让我们因为感染而导致死亡。无论何时,要对一个新病毒进行研究,都得提取其基因,然后在数据库搜索是否有同源基因的存在。由于基因测序技术的发展,字符串匹配算法作为一种传统的算法受到了巨大的挑战。研究表明,基因测序过程中会出现大量的短读
学位
研究了深冷处理与传统热处理对35CrMo合金结构钢的力学性能、尺寸稳定性和微观组织的影响。采用圆环三角法对不同工艺处理后的尺寸稳定性进行评价。结果表明,淬回火后增加深冷处理能够使35CrMo的抗拉强度提高32 MPa,屈服强度提高33.5 MPa,伸长率提高26.7%,冲击韧性保持不变。高温回火后材料内应力得到充分释放,试样的稳定性较好,增加深冷处理能够进一步提高材料的尺寸稳定性。淬火后回火前增加
期刊
随着深度神经网络技术的发展和日益增长的工业需求,目标检测越来越受到人们的重视,并取得了显著的成绩。目前,大多数算法都是针对一定尺寸的常规目标。然而,由于小目标的尺寸相对较小,经过神经网络的下采样处理后像素数目越来越少,导致提取的目标特征不明显。检测中经常出现漏检和误检,严重影响了目标检测的效果。本文针对小目标检测效果差的问题,在算法的特征提取部分,采用并行卷积、空洞卷积以及残差网络来增大特征图的感
学位