基于深度学习的手语翻译与生成技术研究

来源 :合肥工业大学 | 被引量 : 1次 | 上传用户:kruotreo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语是一种基于视觉的语言,它为聋哑人士提供了交流的媒介。手语翻译与生成技术研究与计算机视觉、自然语言处理、跨媒体计算以及人机交互等多个前沿研究领域密切相关。早期的研究者致力于离散手语动作的识别,其研究可以追溯到30多年前。近年来,由于深度学习技术的发展,越来越多的工作开始关注于连续手语翻译和手语视频生成。虽然一些最新的研究技术在手语研究中取得了广泛的成功,但手语翻译与生成研究依然面临着诸多困难与挑战。(1)手语翻译是一项典型的弱监督序列学习任务。由于手语数据集通常仅有句子级别的注释,而缺少每个手语动作确切时间位置,手语翻译和生成的过程都不可避免地需要考虑监督不足的问题。(2)手语视频的时序语义表征是复杂的。手语是一种包含面部微动作、手指局部动作和肢体运动的多类型视觉表达,这导致需要在不同的时间尺度和空间粒度上去理解手语视频。(3)手语翻译涉及一些混合语义学习的挑战。如何在统一的框架中对多模态线索进行联合表征以及实现跨模态数据的语义对齐仍然是难以解决的。(4)手语生成面临输入文本语义薄弱的问题。与复杂的视频输出相比,输入手语语句的语义是薄弱的,如何在手语视频生成过程中强化文本语义的引导也是亟待解决的问题。为了解决上述问题与挑战,本文提出了一系列用于手语翻译和生成任务的方法,主要研究内容总结如下:基于在线联合优化的伪监督手语翻译算法。针对手语翻译任务中的弱监督和时序语义表征问题,提出一种带有联合损失优化的连接主义时序建模方法。首先,该方法设计了一个双流的短期时序学习阶段,包括一个实现(2D+1D)=伪3D卷积特征学习的时间卷积金字塔模块,以及一个用于小范围的时空联合建模的3D卷积模块。然后,使用双向循环神经网络和连接主义时序分类网络实现了用于长期时序学习的动态解码方案。该方案直接学习视觉特征、手势标注和生成语句之间的时序映射,其得到的标签对齐方案被视为伪标签。最后,利用上述步骤得到的伪监督线索,使用联合损失优化函数,在端到端框架中同时衡量特征相关性、手势标注的熵正则化和句子解码的概率最大化。该方法在不引入额外监督的情况下实现了比其他在线翻译模型更好的性能。基于多模态序列图嵌入的手语翻译算法。手语翻译研究常常涉及来自多源的手语输入信号,因此需要考虑多模态特征之间的跨模态关联性学习问题,同时还需要探索模态内部的时序相关性。针对上述问题,提出一种基于图神经网络的多模态序列特征嵌入方法。具体来说,构建了一个图结构来实现模态间和模态内的相关性学习与时序性探索。首先,该方法设计了一个图嵌入单元,它将具有通道和时间学习的并行卷积嵌入到图卷积网络中,以学习每个模态序列中的时间线索和跨模态互补性。其次,提出了具有池化跳连的分层图嵌入单元堆栈器。为了获得多模态序列的紧凑且信息丰富的表示,分层图嵌入单元堆栈器逐渐压缩通道维而不是时间维度,从而保留更多的时序线索。最后,采用连接主义时序解码策略来探索整个视频流上的时间关联性,并将特征序列转换翻译成完整的手语句子。该方法在统一的模型中同时解决了短期时序线索挖掘和多模态互补性学习的问题。基于文本语义增强的手语姿态生成算法。针对手语生成任务中相对于视觉内容文本语义更薄弱的问题,提出了一种带有在线反向翻译的手语文本语义增强网络。区别于现有方法仅关注姿态坐标的回归预测(即尽可能地拟合姿态坐标的真实标签值)的做法,提出的方法强调对文本语义引导的强化和对跨模态语义一致性的约束。具体来说,该网络由手语词编码器、姿态解码器和在线反向文本解码器组成。首先,在基于转换器模型的手语词编码器中,引入了一个可学习的手语词标记,该标记在无需任何手语先验的情况下探索整个手语词序列的全局上下文依赖。其次,设计了一种递进式的手语姿态循环解码模式。在姿态解码期间,手语词标记被聚合到已生成的姿态序列上作为语义指导。然后,聚合特征与整个手语词嵌入向量进行交互并生成下一时刻的姿态。最后,设计了一个反向手语词解码器,它将生成的姿态反向翻译为手语语句并与原始语句进行对齐。该模型在手语生成期间保证了手语词到姿态和姿态到手语词双向转换过程中的语义一致性。
其他文献
[目的]研究新疆家庭农场对农业保险满意程度,推动新疆农业保险高质量发展。[方法]以新疆地区家庭农场作为调查对象,对363位家庭农场主做调查问卷,从基本特征、农业保险的认知程度以及对农业保险的满意程度进行分析,运用二元Logistic模型探究影响新疆家庭农场对农业保险满意度的因素。[结果]年龄、教育背景、经营年限、农业保险产品满足程度、参与过农业保险相关讲座、经历过农业自然灾害、信任保险公司、农业保
期刊
期刊
乡村振兴战略是新时代做好“三农”工作的总抓手,人才振兴是乡村振兴的关键所在。涉农高校是开展乡村人才培养的主要载体,主要利用高校师资队伍、专业知识和技术、培训场所等教育教学资源,开展多种形式、多个层次的乡村人才培养。广西涉农高校积极参与服务乡村振兴,开展乡村人才培养,成效显著,但也存在人才培养与市场需求脱节、各层次人才培养断层明显、毕业生就业引导不足、短期培训缺乏考评机制等问题。建议通过加大教育教学
期刊
卫星导航干扰检测技术是抗干扰技术的基石,其核心在于寻找接收的卫星导航信号和外界干扰二者的特征差别。时频分析技术作为卫星导航干扰检测技术的核心手段,无疑在卫星导航干扰检测领域占据重要地位,但时频分析方法的一些固有缺陷同时也限制了卫星导航干扰检测技术的发展,因此本文在前人工作和总结的基础上,针对卫星导航接收机容易被扫频干扰影响而不能正常工作以及传统时频分析方法中时频分辨率、交叉项干扰等限制因素,将分数
学位
目的 比较4种衰弱工具对老年癌症患者衰弱风险的筛查能力,为临床衰弱筛查工具的选择提供参考。方法 采用目的抽样法,选取308例住院老年癌症患者为研究对象,采用老年-八项问卷、弱势老年人调查-13问卷、简明老年人综合评估问卷、衰弱表型和老年综合评估工具进行衰弱评价。以老年综合评估结果为衰弱诊断金标准,通过Bayes判别分析和受试者工作特征曲线分析比较4种筛查工具筛查老年癌症患者衰弱风险的能力。结果 老
期刊
图划分作为面向图数据的经典问题,被广泛用于分布式图处理、社区发现、图像分割、道路规划等领域。在图划分问题中,将图中的节点或边均匀地划分至不同分区,以减少跨分区边或节点的数目是图划分的主要目标。但随着现实生活中图数据规模不断增大,如何在仅基于局部图信息、内存消耗较低的情况下针对不同场景中的各类型图数据进行图划分操作成为亟需解决的问题。本文针对不同类型的图数据(静态图、动态图、权重图)提出了不同的局部
学位
人体目标检测作为计算机视觉领域的一个重要研究方向,旨在对图像中每个人体目标实例进行准确定位,并通过矩形框来表示其位置及边界。近年来,因其在高层视觉研究和下游实际任务中具有重要的作用,人体目标检测获得了学术界和工业界的广泛关注。一方面,人体目标检测是各种高层视觉研究的基础,如行人跟踪、行人重识别和行为识别等。另一方面,人体目标检测也为大量的下游实际任务提供核心支持,包括智能监控、自动驾驶和人机交互等
学位
图像超分辨率重建是指利用给定的低分辨率图像恢复出高分辨率图像的过程,是一类关键的计算机视觉或图像处理技术。该技术不仅是单独的低级视觉任务,它还可以作为其他计算机视觉任务的预处理过程,在公众安全、遥感卫星图像、医学图像、视频显示等大量图像相关领域广泛应用。一般来说,图像超分辨率(Super-Resolution,SR)重建任务非常具有挑战性并且本质上是病态的。因为如果确定降质模型后,从高分辨率(Hi
学位
青藏高原察尔汗盐湖区属于典型的高寒干旱气候区,是“一带一路”辐射范围内氯盐渍土分布最广地区。随着交通强国建设下新一轮西部大开发的深入推进,该地区交通基础设施建设规模逐渐扩大。在长期交通荷载作用及青藏高原气候暖湿化趋势影响下,高寒盐湖区道路出现大量由于氯盐渍土不良工程特性导致的翻浆、沉陷、不均匀沉降等路基病害,严重威胁着盐湖区公路长期稳定性与运营安全。因此,开展交通荷载下高寒盐湖区氯盐渍土路基变形特
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动微波成像系统,具有全天时、全天候成像的特点,在军事和民用领域发挥着重要作用。SAR图像分类是SAR图像解译的关键环节。然而,由于SAR图像具有地物纹理复杂、存在类内多样与类间相似、标记样本少等特点,导致基于传统特征提取的方法分类性能受到限制。近年来,随着深度学习的发展,卷积神经网络(Convolutional Neu
学位