论文部分内容阅读
成人图像视频检测(Adult Image/Video Detection)旨在快速准确地从互联网上的海量数据中识别含有色情内容的图像和视频,在信息过滤和视频监控等领域具有广阔的应用前景。
根据特征提取方法的不同,成人图像视频检测方法可以分为基于人体肤色的检测方法、基于视觉单词(Visual-Words)的检测方法和基于多模态特征的检测方法三种类型。目前大多采用基于人体肤色的检测方法,但是误检率偏高。基于视觉单词的检测方法是检测“色情部位或色情姿态”的有效手段,然而,现有方法在视觉单词提取过程中,量化损失较大、背景噪声较多。基于多模态特征的检测方法利用音频等模态信息检测“色情行为”,但是,现有方法中缺乏准确的音频语义表示方法,导致检测性能仍然偏低。
本文针对上述问题,在基于视觉单词软加权、视觉注意模型的成人图像检测和基于音视融合的成人视频检测等方面展开较为深入的研究,取得了如下研究成果:
1.基于视觉单词软加权的成人图像检测
为了提高成人图像的检测性能,提出基于视觉单词软加权的成人图像检测方法。该方法使用基于密度的聚类算法过滤噪声,运用区间逼近策略获取合适的词表尺寸(Vocabulary Size),采用软加权(Soft-Weighting)减少视觉单词提取过程的量化损失。实验结果表明,该方法提高了成人图像的检测性能,在误检率(False Positive Rate)为15%时,检出率(True Positive Rate)比基准方法(Baseline)提高约4%。
2.基于视觉注意模型VAMAI的成人图像检测
兴趣区域(Region of Interest,简称ROI)是指包含“色情部位或色情姿态”的区域,精确提取ROI至关重要。本文提出基于视觉注意模型VAMAI(Visual Attention Model forAdult Images)的成人图像检测方法。首先,提出基于多尺度和埘比的显著图模型,并与肤色分类模型和人脸检测模型相结合,构造了一种新的视觉注意模型VAMAI,用于较精确地提取ROI。然后,提出基于VAMAI的视觉单词提取算法,用于提高BoW(Bag-of-Words)模型的检测性能。最后,比较多种全局特征的性能,从中选择颜色矩,将它与BoW的支持向量机分类结果进行后融合。实验结果表明,该方法能够较精确地检测ROI,并显著提高了成人图像的检测性能。当误检率为15%时,检出率比基准方法提高约17%。
3.融合音频单词与视觉特征的成人视频检测
随着互联网上低质视频的快速增长,单纯依靠视觉特征难以满足成人视频的过滤需求。为了快速准确地过滤成人视频,提出融合音频单词与视觉特征的成人视频检测方法。首先,提出基于周期性的能晕包络单元(Units of Energy Envelope,简称EE)分割算法,将音频内容表尔为EE的序列。其次,提出基于EE和BoW的音频语义表示方法,将EE的特征表示为音频单词(Audio-Words)的出现概率。然后,采用复合加权的融合方法融合音频单词与视觉特征的检测结果。最后还提出基于剧期性的成人视频判别算法,用于提高判别性能。实验结果表明,与基于视觉特征的方法相比,该方法显著提高了成人视频的检测性能。当误检率为9.76%时,检出率可达94.44%。
总之,本文的研究工作在深入分析现有成人图像视频检测技术不足的基础上,通过对优化视觉单词提取、精确提取ROI和准确表示音频语义等几个关键问题的深入研究,提高了成人图像视频的检测性能,从而为图像视频信息的过滤与监控等应用提供了良好的解决方案,具有广泛的应用前景。