论文部分内容阅读
手语是听力障碍者用来交流的语言,它使用肢体动作模拟音节,构成相应词语来进行信息传递。但是,庞大的听障群体和听力正常群体间仍存在沟通障碍,而且不同地域的听障群体间由于手语规则的不同也难以有效沟通。因此,手语视频翻译技术通过将手语视频翻译成文本语句,将大大改善听障群体的交流现状。手语视频翻译旨在将手语视频翻译成文本语句,这要求手语视频翻译模型准确地提取手语动作信息,同时克服手语视频和文本语句之间的语义鸿沟。基于这两项要求,本文使用三维卷积残差神经网络(3D-ResNet)来提取视频中手语特征,并通过Transformer将手语特征序列翻译成文本语句。此外,Transformer(或者其它基于编解码结构的时序模型)在前向计算下一时刻词项的概率分布时,解码结构中词项的输入方式在监督训练过程与测试过程中存在偏差;而且在手语视频翻译任务中,监督学习使用的优化目标和测试时的评估准则间也并不一致。针对上述缺陷,本文在监督学习的基础上使用强化学习进一步优化模型参数。于是,递进地,本文提出了三种手语视频翻译方法,具体如下:1.提出了一个由3D-ResNet和Transformer构成的解决手语视频翻译任务的新网络框架,实现了手语视频的准确翻译。在该手语视频翻译模型中,3D-ResNet用来提取视频中的手语特征,Transformer用来将3D-ResNet生成的手语特征序列翻译成目标文本语句序列。2.提出了基于“自我评价”策略梯度算法的手语视频翻译方法。本文对基于3D-ResNet和Transformer的手语视频翻译模型进行强化学习公式化描述,并使用策略梯度算法优化策略网络。为提高算法稳定性,本文使用模型自身生成的语句为策略梯度算法提供基准值,先后提出了以“最大估计”和以“采样-最大估计”生成语句为基准语句的策略梯度算法。3.提出了基于“动作-评价”策略梯度算法的手语视频翻译方法。为了提高策略梯度算法中基准值的准确性,本文使用价值网络来拟合作为基准值的状态价值函数。于是,为了同时优化价值网络和策略网络,本文先后用分开、交替和联合的方式完成价值网络和策略网络的训练,其中联合训练模式下策略网络和价值网络构成“动作-评价”结构。本文在手语数据集RWTH-PHOENIX-Weather上对上述三种方法进行了验证,实验结果显示基于3D-ResNet和Transformer的手语视频翻译模型对手语视频翻译任务有较好的效果,而且证明了强化学习能进一步提高模型的有效性。