论文部分内容阅读
随着电影业的发展以及互联网的普及,每年都会产生大量的多媒体信息。这些多媒体信息中(如电影等),往往会包含不健康的内容,尤其是暴力内容。由于多媒体信息的急剧增多,仅仅依靠人工对多媒体内容进行审查已经满足不了现阶段的需求。因此,亟需研究对多媒体暴力片段检测的自动检测技术。以往的暴力分析大多按图片内容分析,检出率低,有些暴力特征难以定义,如恐怖尖叫等。在以电影为主的多媒体数据分析中,本研究工作提出了基于视听通道融合的多媒体暴力片段检测技术。首先,我们提出了基于颜色直方图和语谱图的镜头分割方法,按镜头进行数据分割。较以往只使用视频中的图像信息进行镜头分割不同,本文根据镜头中包括图像数据及与之对应的音频信息,提出了一种基于双阈值和语谱图相结合的镜头分割方法。实验结果表明,本文基于图像和音频信息结合的镜头分割算法,能够有效的提升对渐变镜头的检测。其次,对于暴力片段的检测,本文以镜头为粒度,分别研究了基于单通道(音频特征、视频特征)的暴力检测以及基于视听通道相融合的暴力检测。通过本文的实验结果可以看出,基于双通道融合的暴力检测效果,要比使用任意单通道的检测效果好。最后,本文对检测出来的暴力镜头进行暴力程度的评价。本文提出了基于高层语义的暴力程度等级评价方法,将暴力镜头进一步分为三个等级:轻微暴力、比较暴力、非常暴力。本文通过对暴力镜头所包含的内容进行分析,分析其所包含的具体音频暴力事件以及视频暴力场景,并根据分析结果评价其暴力程度。在暴力音频事件检测工作中,本文提出了基于时延网络的暴力音频事件检测方法。在对一段音频内的多帧特征进行处理时,使用时间集成和帧间集成取代简单的平均。通过实验证明,基于时延网络的暴力音频事件检测效果要比把特征进行平均的效果好。