智能异常检测及其应用

来源 :国防科技大学   | 被引量 : 0次 | 上传用户:resiaton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习/数据挖掘的众多研究分支中,异常检测一直是最为重要并且最具有挑战性的课题之一,其也被称为单类别分类/新奇点检测/离群点检测等。具体来说,异常检测致力于从一个数据集合中检测出与观测到的数据常见行为最为不相符的那些异乎寻常的数据模式,换言之,其将数据分类为正常类别和异常类别。异常检测有着非常广泛的应用领域,例如网络入侵检测、欺诈检测、工业故障检测以及智能图像视频处理与理解等。与传统的分类问题相比,异常检测更具有挑战性,且其到现在仍然是一个研究的热点,而本文的工作也将聚焦于此问题。本文的工作可以归纳如下:
  (1)针对拥挤场景下的有监督视频异常事件检测问题,本文提出了一种基于新型底层时空特征算子和单类别极限学习机的方法。视频异常事件检测是异常检测在计算机视觉中的一个具有巨大潜在应用价值的新应用,在有监督的设定下,其任务是在给定只包含正常视频事件的训练视频序列的情况下自动检测并定位监控视频中发生的异常事件。同时,拥挤场景则是视频异常事件检测面临的主要挑战之一,其会使包含目标检测、跟踪在内的经典高语义层次视频处理方法都失效。我们方法的主要贡献如下:首先,我们设计了两种新颖的底层时空特征算子,基于一致局部梯度模式的光流算子(ULGP-OF)以及空间局部化光流直方图算子(SL-HOF)。与之前的特征算子相比,ULGP-OF和SL-HOF能够通过刻画视频前景中的局部运动和纹理信息实现对视频事件更加有效的表示,并提取出更具有判别性的特征;其次,我们在视频异常事件检测任务中第一次引入了新兴的单类别极限学习机的方法来高效地对正常事件进行建模,并用其得到的正常模型来有效地区分出异常事件。单类别极限学习机能够在耗费非常少的训练时间的情况下获得与传统单类别分类器相当甚至更优越的异常检测性能。我们在包含大量拥挤场景、极具挑战性的UCSD ped1和UCSD ped2数据集上进行了实验,并获得了非常满意的视频异常事件检测和定位性能,验证了提出的方法的有效性。
  (2)针对无监督设定下的视频异常事件检测问题,本文提出了一种由粗至精的两阶段无监督方法。无监督视频异常事件检测是文献中最近才出现的、十分具有挑战性的新任务,其要求在不事先指定只包含正常视频事件的视频序列用于训练正常模型的情况下来进行异常事件检测。与已有的通过检测剧烈局部变化作为异常事件而忽视了全局时空上下文信息的无监督解决方案相比,我们提出的新方法能够将整个视频中的全局时空上下文信息都纳入考虑,并以一种由粗至精的方式对视频异常事件进行无监督的发现,其主要贡献如下:首先,在正常事件估计阶段,我们使用整个无标注视频中提取出的视频事件特征训练了一个深层自编码器,并根据其重建损失分布提出了一种新颖的自适应阈值策略来从整个无标注的视频中粗略地估计出正常事件;其次,在正常事件建模阶段,我们将前一个阶段粗略估计得到的正常事件输入到单类支持向量机之中进行一个精细化的正常事件建模,其能够进一步排除掉上一阶段未能排除的异常事件并增强检测的性能。我们在常用公共测试数据集上的实验结果显示我们的方法不仅远远优于已有的无监督方法,还能够与当前效果最好的有监督方法表现得旗鼓相当甚至更胜一筹。
  (3)针对单类别分类器的超参数选择问题,本文提出了一种名为最小生成树伪数据生成(MST-GEN)的通用超参数选择框架。超参数选择对单类别分类器的异常检测性能具有巨大的影响,但是异常类别数据的稀缺性导致直接为单类别分类器确定超参数非常困难。针对这个问题,我们提出了MST-GEN作为一种有效的单类别分类器超参数选择框架:首先,由于经典的最小生成树提供了一种方便的描述数据分布的形态结构的方式,MST-GEN首先构建一个n轮最小生成树(n-MST)来对给定的正常类别训练数据进行建模;其次,基于n-MST中提供的信息,MST-GEN通过高效的边缘模式检测和一个新颖的“排斥”过程来生成高质量且数量可控的伪异常数据,其不仅克服了异常数据稀缺带来的超参数选择困难,还能够克服传统的伪异常数据生成方法所面对的两个棘手问题——在哪里以及生成多少伪异常数据;第三,基于n-MST的边集,我们可以非常高效地生成伪正常数据用于模型验证,其能够极好地保留正常数据分布的形态结构并避免耗时的交叉验证过程。我们以单类别极限学习机为测试对象在二维人工合成数据集和公共测试数据集上进行了广泛的实验,其结果表明我们提出的MST-GEN能够以一种准确而高效的方式进行单类别分类器的超参数选择。另外,我们也用实验说明了MST-GEN可以用于其他的单类别分类器。
  (4)针对一种经典的单类别分类器——单类别支持向量机的超参数选择问题,本文提出了一种名为自适应数据移动(SDS)的方法。与传统的伪数据生成方法不同,SDS提出了一个新颖的角度来看待伪数据生成,即通过对给定数据进行微小的、确定性的、自适应的移动来生成伪数据用于模型验证。同时,相较于MST-GEN,SDS能够在不需要额外设定任何参数的情况下完全自适应地基于给定数据生成伪数据。SDS的具体流程如下:首先,为了生成伪异常数据,SDS将检测到的边缘模式沿着估计出的数据密度梯度的负方向进行“负”移动来生成伪异常数据;其次,SDS将每一个给定数据沿着数据密度的正梯度方向进行“正”移动来产生伪正常数据作为验证集。同时,每个数据进行负移动和正移动的方向和距离都可以通过其k近邻数据进行估计,因此SDS能够极为高效地生成伪数据并且在伪数据生成过程中不需要调整任何额外的参数。我们在二维合成数据集和公共测试数据集上与文献中已有的基于伪数据生成和基于启发式规则的单类别支持向量机超参数选择方法进行了广泛的对比,其结果充分证明了SDS在帮助单类别支持向量机进行超参数选择时的有效性。
  (5)针对高比例异常的情况下的无监督异常检测问题,本文提出了一种基于矩阵低秩的高效离群点检测(LEOD)框架。我们第一次对文献中尚未进行专门探讨的高比例异常问题进行了形式化定义,并指出在这种情况下已有的无监督异常检测方法抑或鲁棒性很差(异常检测性能随着异常比例升高而急剧劣化),抑或会带来极高的空间和时间复杂度。相比之下,我们提出的LEOD框架具有如下贡献:首先,LEOD避免了在高比例异常下继续使用异常数据“少而不同”的经典假设,而是仅基于相似度矩阵中包含的低秩结构来平等地对正常数据和异常数据进行评判,这就为之后以很低的计算开销保持令人满意的鲁棒性打下了基础。其次,我们在LEOD框架的基础上提出了两种解决方案,LEOD-basic和LEOD-fast:对于LEOD-basic,我们提出了一种新的、空间复杂度极低的迭代重新加权算法用于求解受限特征值问题,而该问题正是LEOD-basic进行优化时的主要瓶颈;对于LEOD-fast,我们通过加入正则项来得到一个无约束优化问题,其最优解可以通过一个计算开销极低的解析解求得,从而大大加速了目标函数的优化过程。在常用的公共测试数据集上的实验结果显示,LEOD能够在离群点比例高达20%至60%的情况下仍然保持极强的鲁棒性,同时其相比于之前性能相当的方法实现了最多100倍的存储效率提升和最多1000倍的速度提升。
其他文献
语音信号不仅承载言语信息,同时还包含说话人个性化语音信息。深入了解声道形态及其声学作用,有助于揭示说话人个性化发音机理。以往研究发现声道下咽腔结构与说话人个性化语音特性紧密相关。然而,之前对于声道下咽腔特性的探究主要针对男性受试者,而女性受试者几乎没有。鉴于此,本文基于核磁共振成像观测手段,将性别差异作为研究重点,探究了不同性别间受试者声道下咽腔的形态学特性和声学特性以及二者之间的因果对应关系,揭
新一代计算技术提升了人类数据感知、分析处理、认知决策的能力,促进了不同行业领域、不同学科的融合。文化遗产保护作为一个典型的数字人文和计算社会科学的新兴交叉学科,不仅仅是简单地将计算技术用来提高领域专家效率或拓展其研究广度和深度,而且由于文化遗产保护的特殊性和复杂性,也对计算技术理论方法提出了挑战。  面向文化遗产预防性保护目标,针对风险量化分析这一核心问题,本文选择最具代表性的不可移动文物类型之一
学位
合成孔径雷达(Synthetic aperture radar, SAR)是一种主动微波成像系统,具有全天时、全气候和穿透力强的特点,是一种重要的对地观测手段,已广泛应用于军事和民用领域。于是SAR图像解译已成为遥感领域关注的热点,而SAR图像分割又是SAR图像解译的基础,对后续的图像理解起着关键作用。  由于SAR图像的成像机理,SAR图像含有固有的乘性斑点噪声,而且SAR图像存在灰度不均匀,弱
本文描述了matlab以简化方式处理图像的一些可能性。我们将这篇论文分为两部分。第一部分是图像处理中使用的一些技术(裁剪图像,旋转图像,去除噪声并将其删除,RGB图像直方图,获取图像的像素值,更改图像的像素值,调整图像大小,RGB格式,检测图像中的纹理区域)。另外还介绍了如何使用matlab从图像中获取一些信息。(图像坐标系,工具箱中的图像类型,GPU上的图像处理,从工作区将图像数据导入图像查看器
学位
电驱动车辆是指一类由电动机直接或间接驱动车轮运行的运载对象,主要包括乘用电动汽车和特殊用途的电动轮车,因其具有节能减排的优势为应对气候变化与推动绿色交通的重要运载工具。然而此类车辆面临着所谓“里程焦虑”与节能降耗需求。加大电池容量与能量密度、快速充电技术、充电站布局等是目前解决“里程焦虑”的主要途径,但依然存在着车重增加,电池安全与充电站覆盖等诸多问题。为此,基于行驶状态估计的车辆能耗优化控制(亦
数字IC集成电路,尤其是FPGA硬件电路的版权保护技术是半导体技术发展的重要核心问题之一。目前尽管部分核心技术产品已得到了众多半导体公司及研究机构的广泛应用,但是IC芯片硬件安全技术在给设计者带来安全保障的同时,也带来了许多潜在的安全隐患。因此,如何研究解决IC芯片电子产品中FPGA硬件电路版权的安全保护与实时认证问题,已成为了当前FPGA硬件安全电路设计领域急需解决的问题之一。本文利用信息隐藏、
学位
水产养殖是农业的重要组成部分,多年来产量处于是世界首位,是一个不断发展的综合性研究领域。为了深入了解水产养殖业发展现状及发展趋势,以及渔民喂养方式和获取信息途径,我们前往“浙江省淡水水产研究所八里店实验综合基地”实地调研,通过一个月的实地观察以及工作人员和周围养殖户的反馈,我们发现养殖户多以经验养殖为主,养殖技术以及鱼病预防等措施更新不及时,遇到问题虽通过网络途径查询,却出现各种错综复杂的信息,导
学位
随着精准农业概念在我国的进一步推广,农业生产对智能机器人的需求也变得更加的旺盛。在农业智能机器人领域,目标障碍物识别技术一直是关系到机器人能否自动行走避障的关键。本文提出了一种基于立体视觉的光谱聚类算法,并把该算法应用到农业智能机器人障碍物检测的研究中。  本文为了降低在伪目标存在的条件下,由于伪目标的干扰引起的算法误检概率,进而提高本系统在非结构化的复杂环境中对目标的有效识别能力,提出了一种基于
随着互联网科技的迅猛发展,人类已经进入了一个信息大爆炸的时代,如何从繁杂的信息资源中提取有效的信息成为了学者们研究的重点内容,谷歌、百度等搜索引擎的出现很好的解决了这一问题。它能够对用户提交的查询请求进行处理,返回给用户想要搜索的信息。  目前虽然我国拥有很多涉农网站,如中国农业信息网、中国农村网、农联网、农业智能搜索网等,这些网站拥有丰富的农业信息资源,符合农业用户的查询要求。但是由于没有规范的
学位
我国作为农业大国,无论是农业在国民经济体系当中所占的比重还是我国的农耕土地面积都是在世界上处于前列的位置,同时随着我国的国家经济的飞速发展和改革开放之后我国经济的快速腾飞,无论是农业的技术水平和果树的种植产业都有了极大的提升和发展,水果和农副产品在人们的日常生活当中的比重和消费都呈现迅速增长的趋势。自1993开始我国成为世界第一水果生产大国之后,无论是果园的播种面积还是水果总产量,还是人均水果产量
学位