【摘 要】
:
随着深度学习的迅速发展,用深度学习的方法研究唇语识别逐渐成为一个新的研究热点。唇语识别需要通过对获取到说话人的唇部运动信息,包括嘴唇与舌头牙齿的相对位置来分析判断,识别出说话人所表达内容,识别结果会受到语言、发音习惯、讲话角度等因素的影响,因此,基于唇动获得信息是一项十分具有挑战性的课题。同时,缺乏公开的中文唇语语料库开展相关研究。对此,本论文围绕基于句子级别中文唇语语料库构建和基于深度学习的中文
论文部分内容阅读
随着深度学习的迅速发展,用深度学习的方法研究唇语识别逐渐成为一个新的研究热点。唇语识别需要通过对获取到说话人的唇部运动信息,包括嘴唇与舌头牙齿的相对位置来分析判断,识别出说话人所表达内容,识别结果会受到语言、发音习惯、讲话角度等因素的影响,因此,基于唇动获得信息是一项十分具有挑战性的课题。同时,缺乏公开的中文唇语语料库开展相关研究。对此,本论文围绕基于句子级别中文唇语语料库构建和基于深度学习的中文唇语识别方法开展了以下研究工作:提出基于句子级别的中文唇语语料库NSTDB(News,Speech,Talk Show Database)的半自动构建方法。该方法首先通过人脸检测算法进行筛选,得到仅含有独立讲话者的视频片段;然后对视频片段的每帧通过人脸关键点定位算法获得连续唇部帧图像;最后使用语音识别技术对分离的语音进行处理,生成中文文本,再经分词处理,获得相应的标签数据。提出一种基于深度学习的中文唇语识别网络模型Ch-LipNet。该模型首先使用2D卷积神经网络提取每一帧唇部图像特征,并将特征进行拼接;然后接入一个双向长短时记忆网络LSTM(Long Short-Term Memory)或门控制单元GRU(Gate Recurrent Unit),用于完成图像序列到文本序列的学习;同时,训练过程中采用CTC(Connectionist Temporal Classification)损失函数,以实现不等长序列的对齐;最后,输出层采用全连接,获得对应的文本标签。提出一种基于D2D(DenseNet-2D)模型和数据拼接预处理的唇语识别方法。该方法使用LRW-1000数据集和自建中文唇语数据集NSTDB训练网络模型。实验结果表明,数据拼接方法不仅适用于词级别的中文唇语识别,也适用于句子级别的中文唇语识别,在准确率影响不大的情况下,大大提高了训练速度,并提升了空间利用率。
其他文献
经历了“非典”和禽流感之后,我国意识到生物安全实验室水平落后的现状,加大了对这方面的投入,兴建了一批级别较高、功能较完善的P3(生物安全三级)实验室,但是这样大型而且固
在当前我国经济环境下,政府与社会资本合作(PPP)模式在减轻公共部门的财政支出压力、提高公共产品和服务供给效率以及缩减公共债务方面发挥着积极作用。但由于PPP模式涉及多
Mitsui等[1]与Chambers等[2]于2003年将在胚胎干细胞中新发现的重要基因Ecat4命名为Nanog基因,它是原始生殖细胞及胚胎干细胞表达的新转录因子,是维持干细胞自我亚全能性、更
对沧州市金丝小枣主要病虫害发生现状进行了调查,对发芽期、蕾花期、幼果期、果实成长期及果实成熟期的主要病虫害进行了简述,提出了加强宣传、推广抗性品种、优化栽培措施、加
目的 研究微创治疗肝内外胆管结石术中优质护理应用价值.方法 根据就诊单双号将本院 2015 年 3 月至 2016 年 5 月诊治的在微创治疗肝内外胆管结石患者分为对照组和观察组,
上海世博北京西路~华夏西路电力电缆隧道是国内第一条大截面、长距离、非开挖施工的电力电缆专用隧道。本文介绍了世博北京西路~华夏西路电力电缆隧道的工程背景,深入分析了该
目的探讨体外冲击波(ESWT)联合高压氧治疗四肢长骨骨不连的临床疗效。方法选取我院60例四肢长骨骨不连患者为研究对象,按治疗方案不同分为3组,A组予ESWT治疗,B组予ESWT联合高
电子管风琴是现代科学技术与艺术相结合的产物,是新兴的现代化和未来感并存的乐器,它可以演奏出多种类型的乐队不同效果与风格的曲目,因此,在电子管风琴上对于音色的编配是十
认真对待《刑事诉讼法》的方法就是努力把《刑事诉讼法》解释好,而不是一味地批评它,或修改它。对《刑事诉讼法》有关非法证据排除规则的立法表述与意义空间进行分析与阐述,
<正>人才梯队建设是人力资源管理的一项重要实践活动。但现行的人才梯队建设模型存在着理论和实践缺陷,已经严重影响和误导着企业的人才管理和人才队伍建设。本文试图从分析