基于唇动检测的影视作品对白单元切分

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangyc726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
影视作品是以视频的形式呈现在观众面前的,因此对影视作品进行对白单元切分,实际上就是对视频进行对白单元切分。本论文的工作目标是希望通过对视频中张嘴说话状态的检测来分割影视作品中对白单元片段。通过输入一段视频,检测出视频中人物说话段落。影视作品中对白单元的切分可用于后续的视频语义关联分析、视频摘要、检索等。对影视作品中的对白单元进行切分有着重要的理论意义和实用价值。影视作品中对白单元的切分的研究涉及模式识别、计算机视觉、图像处理、数字信号处理等多个相关领域,它所研究的内容涉及到了这些领域的最新的研究进展。本文的主要研究工作如下:1.提出了基于嘴部亮度信息变化的唇动检测切分算法。首先提出了基于嘴部低亮度信息的检测切分算法,该方法基于人说话时口腔内部低亮度像素数量的显著变化特点提出的。这是由于人们在说话的时候口腔部分暴露出来了。而口腔通常都处于阴影中,因此口腔像素占有的亮度值都属于低灰度亮度范围。因此可以采用大量的嘴唇区域低亮度像素来指示唇动,用来检测。实验结果表明,该方法能够比较准确的检测出视频中的说话部分。在基于嘴部低亮度信息的检测方法基础上又提出了改进算法。由于人们在说话时候经常会露出牙齿,这些高亮度像素直接干扰低亮度像素的检测结果。因此本文又利用高亮度像素信息补充到低亮度像素信息检测规则中,进而提高了检测的准确度。2.提出了基于时序LBP直方图的说话检测切分算法。人在说话时,上下嘴唇是动的,纹理信息在时间上变化明显。人不说话时,上下嘴唇基本不动,纹理信息在时间上基本维持稳定。张开嘴部的纹理信息和闭合嘴部的纹理信息明显不同。综合利用时序和纹理信息,提出了基于时序LBP直方图的算法。实验结果表明,该方法能够获得较高的正确检测率。
其他文献
无线移动Ad hoc网络(MANET,以下简称Ad Hoc网络)作为没有基础设施的网络,在军事和民用方面具有广阔的应用前景,是目前网络研究中的热点问题。随着近年对Ad hoc网络安全的研究
在自认证密码体制下,用户的公钥由自己生成,一个称为认证中心CA(Certificate Authority)的可信第三方生成用户的部分私钥,用户利用这个部分私钥和自己随机选取的秘密值生成自
机器翻译自动评价是近年机器翻译研究工作中的热点问题。机器翻译的自动评价具有速度快、成本低、一致性强的特点,在机器翻译系统的开发周期中起着重要的作用。句子级机器翻译
Web服务组合解决了互联网异构应用的集成和协作问题。Web服务组合建模是一个复杂且易出错的过程。如果组合流程在投入运行后被发现有错,则修复错误的代价很高,而且流程结构的
各种不同网络安全设备每天都产生大量的信息,并且不同的网络设备之间的安全事件存在一定内在的联系。安全态势值提供了一个宏观报警的方法,安全态势评估则是将安全信息数据的
BitTorrent(简称BT)作为一种高效的P2P文件共享协议为越来越多的人所使用和关注,也成为学术界研究的热点。目前的BT发布站点或搜索引擎在效率、全面性、安全性上存在着或多或
航空产品是一种较为特殊的产品,生产周期长,质量要求高,造价高昂,所需的零配件品种繁多。单独的企业可能没有必需的技术与能力来满足所有的制造生产要求。但是在引进某些合作
人脸识别技术尽管取得了较好的发展,并在安全访问控制、基于内容的检索和新一代人机界面等领域中有了初步应用。但现阶段算法在速度,准确性,鲁棒性等方面尚不能满足实际需求
计算机人脸表情识别技术是指计算机从人脸图像中分析并提取表情特征,应用人工智能和模式识别的方法加以归类和识别,进而理解人的情感。它是图像处理、模式识别、心理学等领域
随着流体力学、科学计算可视化、计算机图形学、网络三维游戏等的发展,可视化技术得到了广泛的应用。流线可视化技术是矢量场可视化技术中的一种,主要包括流线的计算与流线的