基于强化学习的手语视频翻译

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:a9228144
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语是听力障碍者用来交流的语言,它使用肢体动作模拟音节,构成相应词语来进行信息传递。但是,庞大的听障群体和听力正常群体间仍存在沟通障碍,而且不同地域的听障群体间由于手语规则的不同也难以有效沟通。因此,手语视频翻译技术通过将手语视频翻译成文本语句,将大大改善听障群体的交流现状。手语视频翻译旨在将手语视频翻译成文本语句,这要求手语视频翻译模型准确地提取手语动作信息,同时克服手语视频和文本语句之间的语义鸿沟。基于这两项要求,本文使用三维卷积残差神经网络(3D-ResNet)来提取视频中手语特征,并通过Transformer将手语特征序列翻译成文本语句。此外,Transformer(或者其它基于编解码结构的时序模型)在前向计算下一时刻词项的概率分布时,解码结构中词项的输入方式在监督训练过程与测试过程中存在偏差;而且在手语视频翻译任务中,监督学习使用的优化目标和测试时的评估准则间也并不一致。针对上述缺陷,本文在监督学习的基础上使用强化学习进一步优化模型参数。于是,递进地,本文提出了三种手语视频翻译方法,具体如下:1.提出了一个由3D-ResNet和Transformer构成的解决手语视频翻译任务的新网络框架,实现了手语视频的准确翻译。在该手语视频翻译模型中,3D-ResNet用来提取视频中的手语特征,Transformer用来将3D-ResNet生成的手语特征序列翻译成目标文本语句序列。2.提出了基于“自我评价”策略梯度算法的手语视频翻译方法。本文对基于3D-ResNet和Transformer的手语视频翻译模型进行强化学习公式化描述,并使用策略梯度算法优化策略网络。为提高算法稳定性,本文使用模型自身生成的语句为策略梯度算法提供基准值,先后提出了以“最大估计”和以“采样-最大估计”生成语句为基准语句的策略梯度算法。3.提出了基于“动作-评价”策略梯度算法的手语视频翻译方法。为了提高策略梯度算法中基准值的准确性,本文使用价值网络来拟合作为基准值的状态价值函数。于是,为了同时优化价值网络和策略网络,本文先后用分开、交替和联合的方式完成价值网络和策略网络的训练,其中联合训练模式下策略网络和价值网络构成“动作-评价”结构。本文在手语数据集RWTH-PHOENIX-Weather上对上述三种方法进行了验证,实验结果显示基于3D-ResNet和Transformer的手语视频翻译模型对手语视频翻译任务有较好的效果,而且证明了强化学习能进一步提高模型的有效性。
其他文献
借助色彩学原理,通过对体育教学实践过程观测对比,论述了不同色彩对学生机体所产生的不同情绪、不同生理反映和心理活动的影响,指出在体育教学活动中应充分利用体育场地周边环境
在矿井技改前,煤矿主通风机大都采用FBCDZ系列煤矿地面用隔爆型抽出式对旋轴流式通风机,出现了"大马拉小车"现象,且存在安全隐患。变频调速可调节矿井的供风量,优化风机工况点,
重组工程(Red/ET, recombination mediated genetic engineering)是指由重组酶催化的DNA片段之间的同源重组而在大肠杆菌中进行基因克隆或DNA改造的一种基因工程技术。通过重
阐述了医院信息系统的应用主线和系统当前面临的挑战,探讨了运用数据整合、统一平台以及面向服务的技术架构等方法,完成多元化信息集成交换平台的解决方案,对数据进行集成与
本课题利用CANON——16mm高速摄影机,KISTER三维测力台等仪器,对10名高校三级跳远运动员短程、全程助跑三级跳远跨步跳进行了测试,获得了有关运动学、动力学参数,分析了运动
【正】 四川省高校第四届体育学术论文报告会于1991年1月28~30日在成都召开。大会共收到论文105篇,经分会报告,评选出15篇论文做为大会发言。与会代表一致认为,今年的论文报告
本次以清华大学以体育来试行五级教学制的试验结果为依据,探讨在高校中建立新型的体育出现课的问题。
10月20-23,2017年中国(杭州)室内运动展及健身嘉年华正式亮相国际博览中心,引爆杭州。活动当天,市民们在观看各式潮流运动比赛的同时,还和现场2000多位健身选手一起体验了健身的魅
根据全民健身计划赋予学校体育的历史使命,结合当前学校体育忽视健身教育的现状,对健康教育与学校体育的关系作做了较深入的探讨。普及健康教育,提高学生健身意识刻不容缓。
目的:通过对脑血栓形成的病人的康复期护理,使病人能够从康复期中找回自信。方法:将本科室住院患者根据不同病情,开展不同程度的训练。结果:脑血栓形成病人病情较入院明显好