【摘 要】
:
随着深度学习技术的不断发展,人类社会逐步进入了一个人工智能的时代。人机交互技术作为人工智能中的一个分支,近年来也取得了巨大的进步。唇语识别技术作为人机交互的一种,也越来越受到关注。然而,有关唇语识别的研究中,大部分都集中在英文语料上,有关中文唇语识别方面的研究鲜有问津。这主要是由于中文的影响力不及英文,中文唇语识别技术的发展起步又较晚,缺少有影响力的中文唇语数据集,且对于中文词语识别的准确率并不理
论文部分内容阅读
随着深度学习技术的不断发展,人类社会逐步进入了一个人工智能的时代。人机交互技术作为人工智能中的一个分支,近年来也取得了巨大的进步。唇语识别技术作为人机交互的一种,也越来越受到关注。然而,有关唇语识别的研究中,大部分都集中在英文语料上,有关中文唇语识别方面的研究鲜有问津。这主要是由于中文的影响力不及英文,中文唇语识别技术的发展起步又较晚,缺少有影响力的中文唇语数据集,且对于中文词语识别的准确率并不理想。因此,基于上述诸多问题,本文设计开发了一款基于深度学习的中文唇语识别系统并自建了中文唇语数据集,旨在弥补有关中文唇语识别研究领域的空白,丰富中文唇语数据集,扩大中文唇语识别的影响力,使得研发出的系统落地具有实际应用意义,在未来可以服务于中国老百姓的日常生活。本文采用基于卷积注意力机制CBAM的ResNet50残差神经网络模型和基于Attention的GRU门循环单元网络模型,并将二者进行自适应融合,将融合完成的深度学习网络模型进行训练,并封装进设计好的中文唇语识别系统中进行运行。通过将本文设计的深度学习网络模型与已有的唇语识别领域中常用的11种CNN-RNN融合神经网络模型进行对比实验,验证了本文所设计的深度学习网络模型具有最好的性能和最高的稳定性。本文的具体工作如下:(1)对输入视频进行预处理。本文采用半随机抽取视频固定帧策略对输入视频进行抽帧处理,获得连续的包含关键信息的视频帧,同时对其做人脸检测与唇部定位,分割出连续的唇动帧序列,将这些连续的唇部图像序列作为一组输入。(2)改进CNN卷积神经网络,提升对于单张唇部图像空间特征的提取能力。在CNN网络部分,通过对比实验,本文最终决定采用ResNet50残差神经网络对唇部图像进行空间特征提取,并创新性地改进了ResNet50的卷积块ResBlock,向其中融入了CBAM卷积注意力机制,增强了其在处理卷积过程中的运算能力,提高了卷积过程中特征提取的性能。(3)改进RNN循环神经网络,增强了对于连续唇部图像的时间特征提取效果。在RNN网络部分,本文选择了GRU门循环控制单元,并在其中添加了Attention机制,这有助于为关键帧分配更多权重,忽略冗余信息的干扰,提升其对于时间特征的提取效果。(4)中文唇语识别系统的设计与实现。本文将上述两步中所使用的深度学习网络进行自适应融合,构建编码-解码形式的CNN-RNN融合神经网络,对连续的唇动图片序列进行处理。通过PyQt5进行页面设计与功能布局,构建完整的中文唇语识别系统。本文将训练完毕的深度学习网络模型封装进设计好的中文唇语识别系统内,通过在自建中文唇语数据集上的实验结果表明本文所设计的中文唇语识系统可以准确识别中文数字“零”到“九”和十个常用中文词语。与其它唇读系统相比,本文所设计的中文唇语识别系统具有更好的稳定性和更高的准确率,具有较好的性能。
其他文献
本文的研究对象是建筑师克里·希尔(Kerry Hill)的建筑设计。克里·希尔是澳大利亚著名建筑师,建筑设计以高端住宅、度假酒店为主。希尔最突出的贡献在于促进了现代主义建筑的地域性发展,在建筑设计中具体体现在对地域性背景的回应、对场地环境的处理以及对建筑空间的组织营造,通过研究能够对我国当下的建筑设计起到积极的参考作用。论文运用文献分析、实地调研、虚拟现实技术辅助体验以及归纳总结等方法,结合克里·
只有认清历史、研究历史、借鉴历史,我们的民族、我们的国家才知道自己从哪里来、到哪里去,才能把握好国家的历史和未来走向。习近平总书记长期非常重视对史料的研读与学习工作,在多个场合和多次讲话中都强调了史料的应用,集中体现了总书记睿智的史学慧眼和和深刻的史学思考。党在百年历程中带领人民披荆斩棘,乘风破浪,创造了一项项举世瞩目的伟大成就,政治、经济、文化等方面取得突破性进步,中华大地上千年来第一次解决了绝
习近平总书记在2020年11月中共中央政治局就加强我国知识产权保护工作举行的集体学习会议中强调:“要鼓励建立知识产权保护自律机制,推动诚信体系建设”。知识产权的行业自律与司法保护、行政执法一同构成综合的知识产权保护体系。其中,专利代理行业自律是知识产权行业自律的重要组成部分。在2019年国务院修订的《专利代理条例》中,首次明确要求建立专利代理行业自律规范,其他有关专利代理行业的自律规范散见于国家市
在稀土矿浮选的过程中会使用大量的苯甲羟肟酸作为捕获剂,导致产生大量含苯甲羟肟酸浮选药剂的选矿废水。目前的处理方法面临的普适性差、净化效率低、易生成有害副产物等难题,研发新型高效的工艺方法成为研究的热点。本论文基于介质阻挡放电等离子体与BiOI半导体光催化剂原位耦合构建等离子体光催化体系,以苯甲羟肟酸为研究对象,系统研究了放电参数如放电电压、放电频率、溶液浓度、鼓气量等对苯甲羟肟酸的降解效果,优化反
本文梳理了中国问题商业银行重组涉及的法律法规,深入分析了包商、恒丰、锦州银行等问题商业银行破产与重组案例,整理出目前中国问题商业银行重组实践的法律问题,通过案例分析法、比较研究法等方法对上述问题进行研究。本文界定了“问题商业银行”“问题商业银行重组”等概念,针对问题商业银行重组启动程序法律框架不完整、问题商业银行重组工具不丰富、问题商业银行重组相关利益主体的权益保护三个核心问题进行了研究,并提出以
中央苏区体育精神诞生于艰苦革命斗争时期,并在军民的广泛实践中,逐渐形成了如今多样的精神形态。中国共产党领导的苏区体育工作提高了革命区军民的身体素质和精神韧性,对于当代思想政治教育改革具有独特的价值。本文以中央苏区体育精神及其当代思想政治教育价值为研究对象,深入解析中央苏区体育精神的形成背景、主要内涵,精神特质,探究其在新时代的思想政治教育价值与实践进路。中央苏区体育精神是在特殊革命时期发展壮大,历
车联网指的是车辆通过车载网络单元与互联网中其他实体进行信息交互的过程。这种交互可以帮助驾驶员获取实时的交通信息,提高出行效率。V2P(Vehicle to Parking)作为车联网中的一种应用场景,为需要泊车服务的用户提供了合适的车位信息,解决了停车难的问题。然而在使用V2P服务的过程中,车辆与其他实体之间的通信大多在开放性的无线信道中进行,发出的消息在传输过程中容易遭受窃听、篡改等攻击,进而暴
定模动辊变截面辊弯成型装备是对板材进行变截面渐进成型加工的复杂机电设备。加工出的成品具有种类多且载荷性能优良的特点,因而有着广泛应用前景。因此,对五道次定模动辊变截面辊弯成型机的加速度展开优化分析,减小加速度峰值,提高设备运行的稳定性,对提高产品质量具有重要意义。本文利用强化学习智能优化方法,对定模动辊成型机进行优化。首先基于能量守恒原理,通过计算定模动辊机电系统中势能、动能、电场能、磁能、机械损
抑郁症是一种危害极大的心身疾病,其发病机制和病机演变过程十分复杂,本文在王永炎院士提出的“虚气流滞”病机理论的指导下,深入剖析了抑郁症“虚气流滞”的病机特点,详细阐述了抑郁症以虚气为本、流滞为标,虚气与流滞相互裹挟、恶性循环的病机特点和演变规律,同时基于诸多研究提出抑郁症“炎症-线粒体损伤”恶性循环假说,并指出线粒体是打破恶性循环的关键治疗靶点,保护线粒体是抑郁症“补虚培元”治则的潜在生物学实质,
随着智能监控技术的发展和应用,人体行为检测技术已成为视频监控领域研究的热点问题。采用行为检测技术可以对监控区域中目标的行为进行准确检测,提高人工筛查的工作效率,及时帮助相关人员应对突发情况,减少事故带来的损失。然而由于场景背景复杂、人体之间遮挡严重、行为之间相似度较大、行为类别千姿百态等问题的存在,使行为检测任务变得艰难。针对以上问题,本文通过提取视频序列的时空特征(时间特征和空间特征)对人体发出