基于深度学习的唇语识别应用的研究与实现

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:xingsen777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是计算机视觉领域中一个富有挑战性的研究课题,其主要目的是从视频中观察人嘴唇运动识别出对应文本内容。然而,由于嘴唇变化局限性和语言内容丰富性,增加唇语识别难度,使得唇语研究课题发展缓慢。如今,深度学习在各个领域的发展,给我们足够的信心来完成唇语识别这个任务。不同于传统的唇语识别中的嘴唇特征识别,在基于深度学习的唇语识别,通常包含使用深度网络模型对图像的特征提取和理解。在本课题中,我们重点研究了唇语识别的数据获取、处理和识别网络框架的设计等内容。在唇语识别研究中,本文作为第一个基于深度学习的中文句子级别的唇语识别的研究课题,采用半自动生成方法生成一个中文唇语数据库CCTVDS,样本数量为14975,共7.25GB。并且,在研究过程中,还新增加了269558条拼音汉字样本数据集,促进网络模型的训练。在唇语识别的实现过程中,我们分别从图像和语言模型两个方面入手,一是采用基于VGG-M的卷积神经网络和循环神经网络RNN的深度网络模型,二是采用基于语言模型的Encoder-Decoder框架的深度网络模型。本文根据研究内容将中文唇语识别划分为两个不同的处理过程,分别得到不同的子网络结构。先利用改进的VGG-M的卷积神经网络ConvNet对嘴唇图片序列进行特征提取,再利用长短时记忆网络(Long Short-Term Memory,LSTM)理解图像特征并转换为对应的拼音字符序列,这个过程设计了一个P2P(Pictures to Pin Ying)网络模型;然后,使用基于语言模型的Encoder-Decoder网络将拼音序列语句转换为中文汉字序列语句,Encoder网络先对拼音字符序列进行特征编码,Decoder网络对特征再进行解码得到汉字序列,这个过程构建了P2CC(Pin Ying to Chinese Characters)网络模型;最后,根据研究内容提出了一个基于CNN和RNN的混合神经网络结构ChLipNet。在CCTVDS数据集上的实验结果表明基于深度学习的唇语识别比传统的唇语识别(采用PCA、HMM等)有明显的优势。另外,我们提出的ChLipNet网络模型降低了中文唇语的识别难度,在句子级别的中文唇语识别中达到句子准确率46.7%和准确率拼音58.5%,略微优于目前英语唇语识别的最好网络模型的实验结果。
其他文献
利用微细通道内的强迫对流换热已被证实是最具发展潜力的高效冷却解决方案之一。本文基于流-固强化换热原理,采用模压固相烧结技术制造多孔复合微细通道强化传热结构。鉴于微
责任是权力的伴生物,政府作为公共权力的受托者,权力的行使必须受到法律的约束,权力的失范必须承担相应的责任。政府必须在权力和责任的平衡的状态中实现对社会的管理。决策
现代泌乳母猪的高度选育使其繁殖性能有了很大提高,但采食量却并未得到显著改善,导致母猪泌乳力下降,而母猪的泌乳性能是影响哺乳仔猪的生长的关键因素,哺乳仔猪几乎全部依赖
在经济全球化日益盛行的今天,垂直专业化生产逐渐成为国际制造业的主流因素。我国对外开放程度不断提高、吸引外资的能力不断增强,融入经济全球化的程度不断加深,进行垂直专
图像拼接是计算机视觉与图像处理领域的一个研究热点,是指将同一场景,相互之间存在部分重叠的图像序列进行空间匹配对准,再经图像融合形成一幅包含各图像序列信息的、较高分
<正>工业废弃物主要产生于矿产资源在加工过程中的副产物,与矿产开发中形成的尾矿一样,具有量大、处理难度大的特点。其处置与资源化利用是目前加强环境保护,发展循环经济,做
会议
我国水利水电行业的工程项目管理现状一直滞后于国际领先水平,作为工程项目的领头羊——项目经理扮演着重要角色,如何测评其绩效表现,选拔优异的候选人担任这一要职,高效地完
随着经济与科技的飞速发展,“图像”(诸如摄影、电影、广告等)以前所未有的力度,影响着当代文化和生活的诸多层面。其中就包括了当代油画的创作方面,“图像”的无所不在,影响
仿拟在当今社会应用广泛。仿拟辞格是众多辞格中的“明星辞格”,它在当今言语社会中广泛流行,蕴含着丰富的语言资源,在留学生经常接触的流行语、广告语、新闻标题、影视娱乐
上海踩踏事件已经逐渐被人们所遗忘,但是围绕这一事件展开的关于"新闻信源引用"的舆论风潮却在不断发酵。本文以上海踩踏事件报道为例,对微博、微信朋友圈等不同性质的自媒体