论文部分内容阅读
在机器学习/数据挖掘的众多研究分支中,异常检测一直是最为重要并且最具有挑战性的课题之一,其也被称为单类别分类/新奇点检测/离群点检测等。具体来说,异常检测致力于从一个数据集合中检测出与观测到的数据常见行为最为不相符的那些异乎寻常的数据模式,换言之,其将数据分类为正常类别和异常类别。异常检测有着非常广泛的应用领域,例如网络入侵检测、欺诈检测、工业故障检测以及智能图像视频处理与理解等。与传统的分类问题相比,异常检测更具有挑战性,且其到现在仍然是一个研究的热点,而本文的工作也将聚焦于此问题。本文的工作可以归纳如下:
(1)针对拥挤场景下的有监督视频异常事件检测问题,本文提出了一种基于新型底层时空特征算子和单类别极限学习机的方法。视频异常事件检测是异常检测在计算机视觉中的一个具有巨大潜在应用价值的新应用,在有监督的设定下,其任务是在给定只包含正常视频事件的训练视频序列的情况下自动检测并定位监控视频中发生的异常事件。同时,拥挤场景则是视频异常事件检测面临的主要挑战之一,其会使包含目标检测、跟踪在内的经典高语义层次视频处理方法都失效。我们方法的主要贡献如下:首先,我们设计了两种新颖的底层时空特征算子,基于一致局部梯度模式的光流算子(ULGP-OF)以及空间局部化光流直方图算子(SL-HOF)。与之前的特征算子相比,ULGP-OF和SL-HOF能够通过刻画视频前景中的局部运动和纹理信息实现对视频事件更加有效的表示,并提取出更具有判别性的特征;其次,我们在视频异常事件检测任务中第一次引入了新兴的单类别极限学习机的方法来高效地对正常事件进行建模,并用其得到的正常模型来有效地区分出异常事件。单类别极限学习机能够在耗费非常少的训练时间的情况下获得与传统单类别分类器相当甚至更优越的异常检测性能。我们在包含大量拥挤场景、极具挑战性的UCSD ped1和UCSD ped2数据集上进行了实验,并获得了非常满意的视频异常事件检测和定位性能,验证了提出的方法的有效性。
(2)针对无监督设定下的视频异常事件检测问题,本文提出了一种由粗至精的两阶段无监督方法。无监督视频异常事件检测是文献中最近才出现的、十分具有挑战性的新任务,其要求在不事先指定只包含正常视频事件的视频序列用于训练正常模型的情况下来进行异常事件检测。与已有的通过检测剧烈局部变化作为异常事件而忽视了全局时空上下文信息的无监督解决方案相比,我们提出的新方法能够将整个视频中的全局时空上下文信息都纳入考虑,并以一种由粗至精的方式对视频异常事件进行无监督的发现,其主要贡献如下:首先,在正常事件估计阶段,我们使用整个无标注视频中提取出的视频事件特征训练了一个深层自编码器,并根据其重建损失分布提出了一种新颖的自适应阈值策略来从整个无标注的视频中粗略地估计出正常事件;其次,在正常事件建模阶段,我们将前一个阶段粗略估计得到的正常事件输入到单类支持向量机之中进行一个精细化的正常事件建模,其能够进一步排除掉上一阶段未能排除的异常事件并增强检测的性能。我们在常用公共测试数据集上的实验结果显示我们的方法不仅远远优于已有的无监督方法,还能够与当前效果最好的有监督方法表现得旗鼓相当甚至更胜一筹。
(3)针对单类别分类器的超参数选择问题,本文提出了一种名为最小生成树伪数据生成(MST-GEN)的通用超参数选择框架。超参数选择对单类别分类器的异常检测性能具有巨大的影响,但是异常类别数据的稀缺性导致直接为单类别分类器确定超参数非常困难。针对这个问题,我们提出了MST-GEN作为一种有效的单类别分类器超参数选择框架:首先,由于经典的最小生成树提供了一种方便的描述数据分布的形态结构的方式,MST-GEN首先构建一个n轮最小生成树(n-MST)来对给定的正常类别训练数据进行建模;其次,基于n-MST中提供的信息,MST-GEN通过高效的边缘模式检测和一个新颖的“排斥”过程来生成高质量且数量可控的伪异常数据,其不仅克服了异常数据稀缺带来的超参数选择困难,还能够克服传统的伪异常数据生成方法所面对的两个棘手问题——在哪里以及生成多少伪异常数据;第三,基于n-MST的边集,我们可以非常高效地生成伪正常数据用于模型验证,其能够极好地保留正常数据分布的形态结构并避免耗时的交叉验证过程。我们以单类别极限学习机为测试对象在二维人工合成数据集和公共测试数据集上进行了广泛的实验,其结果表明我们提出的MST-GEN能够以一种准确而高效的方式进行单类别分类器的超参数选择。另外,我们也用实验说明了MST-GEN可以用于其他的单类别分类器。
(4)针对一种经典的单类别分类器——单类别支持向量机的超参数选择问题,本文提出了一种名为自适应数据移动(SDS)的方法。与传统的伪数据生成方法不同,SDS提出了一个新颖的角度来看待伪数据生成,即通过对给定数据进行微小的、确定性的、自适应的移动来生成伪数据用于模型验证。同时,相较于MST-GEN,SDS能够在不需要额外设定任何参数的情况下完全自适应地基于给定数据生成伪数据。SDS的具体流程如下:首先,为了生成伪异常数据,SDS将检测到的边缘模式沿着估计出的数据密度梯度的负方向进行“负”移动来生成伪异常数据;其次,SDS将每一个给定数据沿着数据密度的正梯度方向进行“正”移动来产生伪正常数据作为验证集。同时,每个数据进行负移动和正移动的方向和距离都可以通过其k近邻数据进行估计,因此SDS能够极为高效地生成伪数据并且在伪数据生成过程中不需要调整任何额外的参数。我们在二维合成数据集和公共测试数据集上与文献中已有的基于伪数据生成和基于启发式规则的单类别支持向量机超参数选择方法进行了广泛的对比,其结果充分证明了SDS在帮助单类别支持向量机进行超参数选择时的有效性。
(5)针对高比例异常的情况下的无监督异常检测问题,本文提出了一种基于矩阵低秩的高效离群点检测(LEOD)框架。我们第一次对文献中尚未进行专门探讨的高比例异常问题进行了形式化定义,并指出在这种情况下已有的无监督异常检测方法抑或鲁棒性很差(异常检测性能随着异常比例升高而急剧劣化),抑或会带来极高的空间和时间复杂度。相比之下,我们提出的LEOD框架具有如下贡献:首先,LEOD避免了在高比例异常下继续使用异常数据“少而不同”的经典假设,而是仅基于相似度矩阵中包含的低秩结构来平等地对正常数据和异常数据进行评判,这就为之后以很低的计算开销保持令人满意的鲁棒性打下了基础。其次,我们在LEOD框架的基础上提出了两种解决方案,LEOD-basic和LEOD-fast:对于LEOD-basic,我们提出了一种新的、空间复杂度极低的迭代重新加权算法用于求解受限特征值问题,而该问题正是LEOD-basic进行优化时的主要瓶颈;对于LEOD-fast,我们通过加入正则项来得到一个无约束优化问题,其最优解可以通过一个计算开销极低的解析解求得,从而大大加速了目标函数的优化过程。在常用的公共测试数据集上的实验结果显示,LEOD能够在离群点比例高达20%至60%的情况下仍然保持极强的鲁棒性,同时其相比于之前性能相当的方法实现了最多100倍的存储效率提升和最多1000倍的速度提升。
(1)针对拥挤场景下的有监督视频异常事件检测问题,本文提出了一种基于新型底层时空特征算子和单类别极限学习机的方法。视频异常事件检测是异常检测在计算机视觉中的一个具有巨大潜在应用价值的新应用,在有监督的设定下,其任务是在给定只包含正常视频事件的训练视频序列的情况下自动检测并定位监控视频中发生的异常事件。同时,拥挤场景则是视频异常事件检测面临的主要挑战之一,其会使包含目标检测、跟踪在内的经典高语义层次视频处理方法都失效。我们方法的主要贡献如下:首先,我们设计了两种新颖的底层时空特征算子,基于一致局部梯度模式的光流算子(ULGP-OF)以及空间局部化光流直方图算子(SL-HOF)。与之前的特征算子相比,ULGP-OF和SL-HOF能够通过刻画视频前景中的局部运动和纹理信息实现对视频事件更加有效的表示,并提取出更具有判别性的特征;其次,我们在视频异常事件检测任务中第一次引入了新兴的单类别极限学习机的方法来高效地对正常事件进行建模,并用其得到的正常模型来有效地区分出异常事件。单类别极限学习机能够在耗费非常少的训练时间的情况下获得与传统单类别分类器相当甚至更优越的异常检测性能。我们在包含大量拥挤场景、极具挑战性的UCSD ped1和UCSD ped2数据集上进行了实验,并获得了非常满意的视频异常事件检测和定位性能,验证了提出的方法的有效性。
(2)针对无监督设定下的视频异常事件检测问题,本文提出了一种由粗至精的两阶段无监督方法。无监督视频异常事件检测是文献中最近才出现的、十分具有挑战性的新任务,其要求在不事先指定只包含正常视频事件的视频序列用于训练正常模型的情况下来进行异常事件检测。与已有的通过检测剧烈局部变化作为异常事件而忽视了全局时空上下文信息的无监督解决方案相比,我们提出的新方法能够将整个视频中的全局时空上下文信息都纳入考虑,并以一种由粗至精的方式对视频异常事件进行无监督的发现,其主要贡献如下:首先,在正常事件估计阶段,我们使用整个无标注视频中提取出的视频事件特征训练了一个深层自编码器,并根据其重建损失分布提出了一种新颖的自适应阈值策略来从整个无标注的视频中粗略地估计出正常事件;其次,在正常事件建模阶段,我们将前一个阶段粗略估计得到的正常事件输入到单类支持向量机之中进行一个精细化的正常事件建模,其能够进一步排除掉上一阶段未能排除的异常事件并增强检测的性能。我们在常用公共测试数据集上的实验结果显示我们的方法不仅远远优于已有的无监督方法,还能够与当前效果最好的有监督方法表现得旗鼓相当甚至更胜一筹。
(3)针对单类别分类器的超参数选择问题,本文提出了一种名为最小生成树伪数据生成(MST-GEN)的通用超参数选择框架。超参数选择对单类别分类器的异常检测性能具有巨大的影响,但是异常类别数据的稀缺性导致直接为单类别分类器确定超参数非常困难。针对这个问题,我们提出了MST-GEN作为一种有效的单类别分类器超参数选择框架:首先,由于经典的最小生成树提供了一种方便的描述数据分布的形态结构的方式,MST-GEN首先构建一个n轮最小生成树(n-MST)来对给定的正常类别训练数据进行建模;其次,基于n-MST中提供的信息,MST-GEN通过高效的边缘模式检测和一个新颖的“排斥”过程来生成高质量且数量可控的伪异常数据,其不仅克服了异常数据稀缺带来的超参数选择困难,还能够克服传统的伪异常数据生成方法所面对的两个棘手问题——在哪里以及生成多少伪异常数据;第三,基于n-MST的边集,我们可以非常高效地生成伪正常数据用于模型验证,其能够极好地保留正常数据分布的形态结构并避免耗时的交叉验证过程。我们以单类别极限学习机为测试对象在二维人工合成数据集和公共测试数据集上进行了广泛的实验,其结果表明我们提出的MST-GEN能够以一种准确而高效的方式进行单类别分类器的超参数选择。另外,我们也用实验说明了MST-GEN可以用于其他的单类别分类器。
(4)针对一种经典的单类别分类器——单类别支持向量机的超参数选择问题,本文提出了一种名为自适应数据移动(SDS)的方法。与传统的伪数据生成方法不同,SDS提出了一个新颖的角度来看待伪数据生成,即通过对给定数据进行微小的、确定性的、自适应的移动来生成伪数据用于模型验证。同时,相较于MST-GEN,SDS能够在不需要额外设定任何参数的情况下完全自适应地基于给定数据生成伪数据。SDS的具体流程如下:首先,为了生成伪异常数据,SDS将检测到的边缘模式沿着估计出的数据密度梯度的负方向进行“负”移动来生成伪异常数据;其次,SDS将每一个给定数据沿着数据密度的正梯度方向进行“正”移动来产生伪正常数据作为验证集。同时,每个数据进行负移动和正移动的方向和距离都可以通过其k近邻数据进行估计,因此SDS能够极为高效地生成伪数据并且在伪数据生成过程中不需要调整任何额外的参数。我们在二维合成数据集和公共测试数据集上与文献中已有的基于伪数据生成和基于启发式规则的单类别支持向量机超参数选择方法进行了广泛的对比,其结果充分证明了SDS在帮助单类别支持向量机进行超参数选择时的有效性。
(5)针对高比例异常的情况下的无监督异常检测问题,本文提出了一种基于矩阵低秩的高效离群点检测(LEOD)框架。我们第一次对文献中尚未进行专门探讨的高比例异常问题进行了形式化定义,并指出在这种情况下已有的无监督异常检测方法抑或鲁棒性很差(异常检测性能随着异常比例升高而急剧劣化),抑或会带来极高的空间和时间复杂度。相比之下,我们提出的LEOD框架具有如下贡献:首先,LEOD避免了在高比例异常下继续使用异常数据“少而不同”的经典假设,而是仅基于相似度矩阵中包含的低秩结构来平等地对正常数据和异常数据进行评判,这就为之后以很低的计算开销保持令人满意的鲁棒性打下了基础。其次,我们在LEOD框架的基础上提出了两种解决方案,LEOD-basic和LEOD-fast:对于LEOD-basic,我们提出了一种新的、空间复杂度极低的迭代重新加权算法用于求解受限特征值问题,而该问题正是LEOD-basic进行优化时的主要瓶颈;对于LEOD-fast,我们通过加入正则项来得到一个无约束优化问题,其最优解可以通过一个计算开销极低的解析解求得,从而大大加速了目标函数的优化过程。在常用的公共测试数据集上的实验结果显示,LEOD能够在离群点比例高达20%至60%的情况下仍然保持极强的鲁棒性,同时其相比于之前性能相当的方法实现了最多100倍的存储效率提升和最多1000倍的速度提升。