基于视听通道融合的多媒体暴力片段检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a13058002542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电影业的发展以及互联网的普及,每年都会产生大量的多媒体信息。这些多媒体信息中(如电影等),往往会包含不健康的内容,尤其是暴力内容。由于多媒体信息的急剧增多,仅仅依靠人工对多媒体内容进行审查已经满足不了现阶段的需求。因此,亟需研究对多媒体暴力片段检测的自动检测技术。以往的暴力分析大多按图片内容分析,检出率低,有些暴力特征难以定义,如恐怖尖叫等。在以电影为主的多媒体数据分析中,本研究工作提出了基于视听通道融合的多媒体暴力片段检测技术。首先,我们提出了基于颜色直方图和语谱图的镜头分割方法,按镜头进行数据分割。较以往只使用视频中的图像信息进行镜头分割不同,本文根据镜头中包括图像数据及与之对应的音频信息,提出了一种基于双阈值和语谱图相结合的镜头分割方法。实验结果表明,本文基于图像和音频信息结合的镜头分割算法,能够有效的提升对渐变镜头的检测。其次,对于暴力片段的检测,本文以镜头为粒度,分别研究了基于单通道(音频特征、视频特征)的暴力检测以及基于视听通道相融合的暴力检测。通过本文的实验结果可以看出,基于双通道融合的暴力检测效果,要比使用任意单通道的检测效果好。最后,本文对检测出来的暴力镜头进行暴力程度的评价。本文提出了基于高层语义的暴力程度等级评价方法,将暴力镜头进一步分为三个等级:轻微暴力、比较暴力、非常暴力。本文通过对暴力镜头所包含的内容进行分析,分析其所包含的具体音频暴力事件以及视频暴力场景,并根据分析结果评价其暴力程度。在暴力音频事件检测工作中,本文提出了基于时延网络的暴力音频事件检测方法。在对一段音频内的多帧特征进行处理时,使用时间集成和帧间集成取代简单的平均。通过实验证明,基于时延网络的暴力音频事件检测效果要比把特征进行平均的效果好。
其他文献
自20世纪80年代以来,非线性负荷的增多使得电网的波形畸变日趋严重。传统的功率计量理论只适用于正弦电路,对非正弦电路的功率,未进行定义;而目前的计量方法对非正弦情况也缺乏有
随着Web服务的出现和推广,基于Web服务的动态服务组合技术也成为近年的研究热点。Web服务的业务流程执行语言(BPEL4WS)作为一种基于业务流程的服务组合方法,建模理论基础比较
现代科学研究和工程实践对高性能计算的需求越来越强烈。Internet的出现和普及为全国各地的科研和工程技术人员远程使用各计算中心提供的高性能计算能力和网络上的其它资源提
数据挖掘在企业决策支持系统中处于重要地位,能提供非常重要的决策信息。如何提高企业决策支持系统的效率一直是数据仓库和数据挖掘技术致力解决的问题。对数据挖掘得出的结果
数字图像给人类生活带来了极大的便利,但它易被图像处理软件随意地修改,使其内容的真实性和完整性备受质疑,因此必须研究图像认证技术。传统的数字签名技术虽可对图像进行认证,但
嵌入式Intemet技术的飞速发展和广泛应用,给应用于电力控制领域的嵌入式操作系统带来了新的挑战——它带来高效、便捷的同时,也引入了安全问题。本课题针对传统的嵌入式操作系
安全空间数据库是当前信息安全研究的一个重要分支,具有广泛应用前景。该领域的研究具有较强的保密性,信息技术发达国家对我国一直施行尖端安全产品禁止输出策略,数据库安全产品
随着网络技术的迅猛发展,电子商务和电子政务等也发展迅速。信息安全显得尤为重要。数字签名技术是信息安全理论与技术的基础和重要保证之一。在传统的数字签名中,对信息的签名
随着计算机相关技术的迅速发展,医院信息系统(HIS)已经成为医院不可或缺的一种快速、高效、准确的管理工具和手段。目前的医院信息系统着重于医院业务流程的重组与实现,而医院
网络蠕虫能利用系统漏洞,自动传播,造成网络拥塞甚至瘫痪,具有极大的破坏性。自网络蠕虫出现以来,已经造成了数百亿美元的直接经济损失。网络蠕虫对抗技术的研究具有重大的现实意