基于深度学习的双模态视听识别的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:hxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年深度学习的蓬勃发展,基于深度学习的许多课题成为热点研究对象,模态识别问题作为其中热门课题之一,旨在通过单个或多个模态序列进行分类,进而学习不同模态对应的内容,最后输出为文本内容。这其中主要模态是听觉和视觉,目前双模态识别(听觉和视觉)由于数据集不够丰富、语言的多样性以及说话人习惯等限制仍处于发展状态。本文从模式识别的数学定义出发,将提出的问题进行数学建模,构建了双模态视听的架构,提出了一种新型的视听识别的结构,传统的模型是将时序依赖完全交由后端去完成,往往忽略了野生数据集下,由于说话人习惯的不同而造成的短时依赖的差异。本文提出的模型强化了特征短时依赖的学习能力,提高了模型识别效果的同时,在实验性能方面也具有明显的优势,单视觉模态的模型参数量减少了近1/2。本文使用公开数据集:单词级数据集LRW和句子级数据集GRID,通过研究这两个数据集的特点,针对数据集的不同进行了视听网络模型的调整,提出了两个视听识别模型,并且对于模型的细节以及训练的方法也做了详细的阐述,包括浅层特征提取、特征融合、CTC对齐机制以及Fine-tuning微调机制等。本文在这两个数据集上验证了本文的模型。在LRW上纯唇部图像序列分类准确率达到了83.1%,视听结果分类准确率达到98.16%,超过目前最高结果0.16%;在GRID上,相比于原文结果,单词错误率在两种条件下分别降低了0.29%和0.41%。
其他文献
近年来,我国在海洋信息领域的研究和开发正处于快速发展阶段,海洋数据的高效处理和应用是促进海洋科技进一步发展和获取国际竞争优势的关键。目前海洋数据呈现出时空关联性强,格式种类多样的特点,带来了异源数据分析难度大、处理效率低等问题,同时现有的舰载海洋数据处理系统仍处于起步阶段,机器学习理论在海洋数据处理和分析的研究较少,因此通过机器学习理论提高海洋数据处理系统实时处理和分析的效率,对我国海洋强国的建设
医学图像分割是医学图像处理与分析领域一个复杂而关键的步骤,其目的是将医学图像中具有特殊含义的部分分割出来,并提取相关特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生做出更为准确的诊断。近年来,由于深度学习算法在医学图像分割中的应用,医学图像分割技术取得了显著的进展,本文在此基础上进行了深入研究,致力于提高胸腔X射线图像的诊断精度,主要提出了两种方法:多支柱卷积神经网络和病灶专注网络。由于人体的
高动态范围(High Dynamic Range,HDR)图像具有较强的场景动态范围表现能力,在航空遥感和医疗成像等领域得到了广泛应用。但由于采集、传输和显示等设备的限制导致接收端的HDR图像质量退化,因此建立有效的HDR图像质量评价方法具有重要意义。目前,可采用支持向量机或者k-means等传统机器学习方法对HDR图像进行图像质量评价,但由于传统机器学习技术仅利用浅层架构,无法高度模仿人类视觉感
认知雷达相比于传统雷达有更强的环境自适应能力,其中通过感知环境并实时优化发射的波形是实现自适应的重要途径。通过认知波形优化方法,雷达能够提升目标探测效果。研究基于深度强化学习的认知雷达波形选择方法,对于推进认知雷达的智能化水平具有重要意义。论文设计了基于深度强化学习(DRL)的认知雷达波形选择(优化)方法框架。为解决传统强化学习对环境的感知和表示能力不足的问题,利用DRL来适应雷达任务复杂多变电磁
光场成像技术通过微透镜阵列结构可以实现对真实场景的光场捕获,以其拍摄简单、视点连续、色彩逼真的特点逐渐获得了消费者的青睐。然而,在网络带宽受限的情况下,如何对光场相机拍摄的光场图像进行有效地编码成为亟需解决的难题。光场图像拥有一些不同于传统自然图像的特点。因此,对光场图像的编码压缩需要在传统图像编码标准的基础上提出新的理论和技术。基于此背景,本文针对光场图像编码技术,利用卷积神经网络从亮度分量变分
近年来,利用蛋白质序列信息预测蛋白质相互作用(PPIs)的方法由于无需先验知识,且避免了传统生物实验方法耗时费力的弊端得到了广大的关注。如何对蛋白质序列进行有效地特征提取以及如何构建预测效果良好的机器学习分类器模型是目前基于序列预测蛋白质相互作用研究面临的最大问题。因此,本文从优化序列编码方法,改进分类模型的两个角度提出基于注意力机制的卷积神经网络模型,主要工作概括如下:(1)针对已有的联合三联体
面部表情识别是人脸研究的一个非常重要的模块,有广泛的应用场景,例如在智能安防场景下可以识别群体的情绪,来避免突发事件;在公安刑侦审讯过程中识别嫌疑人的微表情,来辅助办案人员判断其是否说谎;在网络授课过程中,通过摄像头捕捉学员的面部表情,来判断学生是否对授课内容存疑。但是仅仅是六种基础表情不足以描述复杂的人类情绪,针对这一问题,选择面部表情更为基础的单位——面部运动单元,而这些面部运动单元的组合可以
近年来,受益于深度卷积神经网络的成功,目标检测在准确性和效率上都取得了较大的进步。然而在算法的进步背后,海量的数据和注释必不可少。虽然通过相机或移动设备采集图像较为简单,但用于训练的目标注释需要在图像中确定目标的类别标签和边界框,人力成本较高。尤其是在需要专业知识或复杂的场景下,标注是难以获取的。尽管颇具挑战性,如何利用大规模未标注或部分标注数据减少标注成本并增强模型性能因其重要性正日益引起人们的
命名实体识别,指的是识别出待处理文本中指定类型的实体,这类命名实体具有特定的意义。在一般情况下,命名实体识别需要识别出的实体类型分为实体类、数字类和时间类这三大类,或进一步细分为人名、机构名、地名、时间、日期、货币和百分比这七小类。而在特定的领域中,会相应地定义领域内的各种实体类型。命名实体识别是自然语言处理中的一个基础性关键任务,为关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多自然语言处
深度神经网络是深度学习的一个重要模型,其往往拥有非常多的层次结构,包含输入层输出层和一系列的隐藏层。但是若只是单纯的添加更多的隐藏层,深度神经网络依然只是运算的简单线性组合,并不具有人工智能的真正意义。此时,激活函数的添加为神经网络添加了非线性的表达能力。随着集成电路的发展,越来越多的神经网络开始使用集成电路实现,而神经网络加速器实现过程中,激活函数往往是硬件实现中最昂贵且最难以实现的部分。本文针