基于音视频特征融合的暴力镜头识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:feihuiy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
暴力镜头检测是多媒体视频领域一项极其重要的任务,具有较高的研究价值和现实意义。目前多媒体视频的数量与日俱增,这给暴力镜头检测的速度带来了更高的要求。而且暴力镜头涉及的语义类型众多,包括打斗、尖叫、爆炸等,这也给暴力镜头检测任务带来了极大的挑战。当下绝大多数研究只涉及到某一种暴力类型,检测的种类相对单一,而且准确率较低,因而亟需面向多种语义类型的暴力镜头快速检测技术。首先,本文基于暴力的出现一般以镜头为最基本单位的原则,对多媒体视频进行了镜头分割,然后对单个镜头进行暴力识别。视频序列的镜头分割是视频检索中的关键技术之一。针对传统镜头分割方法在单一场景下分割效果差、对于渐变镜头检测准确率低等问题,本文出了一种基于视觉认知机理的视频镜头分割方法。该方法利用分块颜色直方图强化视觉显著区域,突出前后帧之间的差异特征,进一步高在单一场景下检测镜头切换的准确率。此外,基于人类对于视频图像亮度的视觉感知规律,利用滑动窗内相邻多帧之间的差异来捕捉镜头渐变时亮度的变化规律。与传统方法相比,本文所出的算法取得了较好的分割效果,具有较高的查准率和查全率。其次,本文分别从视觉通道、听觉通道、视听双通道对于单个镜头的暴力成分进行了深入分析。在视觉通道上,本文比较了视频行为分析领域效果最好的密集轨迹特征方法和目前业界使用较广泛的深度学习方法。在深度学习方法中,本文将相邻两帧图像的帧间差分图作为卷积神经网络(Convolutional Neural Network,CNN)的输入,之后将CNN学习到的每个帧间差分图的特征送入长短时记忆(Long Short-Term Memory,LSTM)网络中,对时序信号进行建模。本文在LSTM结构中,使用卷积操作进行了改进,改进后的ConvLSTM网络取到了更高层的空间特征。在听觉通道上,本文针对目前暴力音频数据集稀缺问题,基于MediaEval电影数据构建了一个VioAudio数据集,然后比较了传统的声学特征方法和分别用原始音频波形图和音频语谱图作为网络输入的深度学习方法。最后,本文基于视觉通道和听觉通道上结果最好的深度学习模型进行了融合实验。我们将视频中相邻图像帧的帧间差分图及其对应的音频波形图分别送入两个CNN网络中进行特征的取,之后对特征进行融合送入LSTM网络中,利用长短时记忆网络对时序信息进行建模与分类。实验表明了该音视频融合方法的有效性。本文的研究工作为目前的镜头分割任务和多媒体视频中暴力镜头检测供了有效的解决方案,在多个数据集上的实验表明,本文出的方法具有一定的可行性和现实意义。同时音视频融合方案也为目前多模态信息融合供了新的思路和方向。
其他文献
随着农村宅基地使用权流转放开的呼声越来越高,从现在开始对宅基地使用权流转制度的配套制度进行研究有着重要的理论意义和现实价值。其中与宅基地使用权流转制度相衔接的收
1736年至1766年在伦敦陆续出版的《普遍史》是近代英国首部集体编纂的世界史。该书初版分为古代和现代两大部分,分别有22卷和44卷,共计66卷。民族国家化、世俗化以及全球视野
袋式除尘器已广泛应用于工业收尘净化领域,文章提出了袋式除尘器全有效生命周期技术相关性评估模式,在此基础上探讨分析了影响袋式除尘器高效、连续运行的技术参数和技术措施
<正>到2020年全面建成法治政府是党中央和国务院制定的重要任务。法治政府又是责任(有限)政府,第一要义是把政府权力关在制度的笼子里。本刊特别组织推出"权责法定原则与法治
从复辟王朝到法兰西第二帝国,法国政府逐渐放弃了对谷物流通的监护体制,使得谷物自由市场在19世纪60年代形成。这并不是单纯废除管制,而是政府职能的根本转变:一方面,政府放
全面建立与实施政府法律顾问制度是中共十八届四中全会通过的《中共中央关于全面推进依法治国若干重大问题的决定》中提出的,政府法律顾问制度及其实施对法治政府建设的意义
20世纪80年代,由于计划生育政策的实施要求育龄夫妇只能生育一个孩子,形成了大量独生子女家庭,而社会上存在的各中风险导致孩子或是患有疾病或是遭遇意外事故,使得他们唯一的
针对某地石英斑岩型钼矿,辉钼矿与绢云母共生关系密切、钼解离难、钼氧化率高的特点,试验研究采用钼硫混合浮选、钼硫混合精矿再磨、钼硫分离的工艺流程,在原矿含Mo 0.055%的
随着时代的不断进步,商业空间也在不断地变化着,以主题性室内商业空间设计为主的新兴设计模式逐渐成为一种潮流,并且在现代室内设计中占据着重要的地位,这种主题性室内设计最
江户时代日本人“华夷观”的变迁郝秉键“华夷观”是儒教世界传统的国际秩序观念。它以“孔孟之道”为价值标准,将整个世界划为华夷两极,“内夏外夷”为其文化分界,“贵华贱夷”