基于深度学习的视觉蕴涵推理及解释生成

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yc513485587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的发展,计算机作为智能设备的基础,其对于各类模态所呈现信息的理解渐渐成为研究主流。图像与文本作为日常生活中常出现的模态,二者之间的蕴涵关系推理也成为推进人工智能对于现实社会理解的重要途径。目前以图像与文本作为主要输入模态的任务有视觉问答(Visual Question Answering,VQA)、图像描述生成、文本生成图像等。视觉蕴涵推理源于文本单模态的语义蕴涵推理(Textual Entailment,TE)任务,通过对其增加视觉信息拓展而来。视觉蕴涵的目的即通过真实世界图片表达出的信息,判断能否推断出给定的自然语言文本。本文基于深度学习,在视觉蕴含推理及其解释生成方面开展了相应工作,主要包含以下两个方面:(1)针对该领域中部分模型的融合机制较为低效、特征提取机制可解释性不强等问题,本文设计堆叠式多模态注意力融合(Stacked Multi-Modal Refining and Fusion,SMMRF)网络。SMMRF网络主要包含三个模块:从文本的全局与局部两个角度学习与图片之间语义交互的全局与局部文本特征融合模块(Global&Local Textual feature fusion block,GLTFF),丰富后续参与多模态融合的文本语义特征,增强可解释性;对两类模态特征进一步提炼与融合的注意力仿射融合模块(Attention&Affine Fusion block,AAF),实现了更高效的特征融合方式。在堆叠式的网络结构中,为保证原始文本信息浓度,避免特征损失设计的假设特征保留机制(Hypothesis-Preserving Mechanism,HPM)。SMMRF网络在相关数据集上进行了实验,整体表现较其他模型有一定提升。(2)为减轻因语言偏置导致的文本单模态对最终蕴涵分类结果的偏误化影响,同时降低网络拟合负担,在两个方面对网络进行了增强。第一,结合反事实方法解析模型中各类模态对最终结果的影响,设计新的反事实推理框架,最小化文本对推理结果的直接偏误化影响。第二,引入解释生成任务作为蕴涵推理任务的辅助,在提高视觉蕴涵推理准确性的同时,给出可理解的自然语言解释。生成的解释文本为分类提供更多的视觉依据,以增强视觉信息方式缓解了语言偏置。通过开展对比和消融实验,证明了整体模型的有效性,其蕴含推理准确性和生成的解释文本的质量较其他模型有相应提高。
其他文献
在信息爆炸的时代,图像是获取信息的主要媒介,而高分辨率图像因其包含丰富的信息被广泛的用在安防、图像压缩、医疗等多个领域。但是由于硬件、环境等因素,导致现实中获得的大部分图像的分辨率都较低。针对这个问题,图像超分辨率重建技术被提出,该技术旨在利用低分辨率图像重建出对应的高分辨率图像。近年来,随着深度学习的飞速发展,基于深度学习的超分辨率重建技术得到广泛的关注。通过对现有的一些超分辨率重建方法进行深入
学位
文本识别及其相关问题一直都是计算机视觉领域的研究热点,该技术与自动驾驶、盲人辅助、产品搜索等应用紧密连接,早在上个世纪科研者们就着手相关的研究。近年来,随着深度学习的发展,基于深度学习的文本识别方法已经取得了一定的进展,但在复杂场景图像中的文本识别依然是一个严峻的挑战。场景文本图像中有着弯曲的文本形状、不确定的文本方向、文本遮挡、光照不均以及背景干扰等问题,给文本识别带来了很大的考验。本文针对场景
学位
随着数字科技与网络多媒体的快速发展,图像成为用户进行观点发表与情感表达的新兴媒介源源不断地涌向社交网络。理解社交网络中图像所承载的更高层次的情感内容,实现图像情感语义分析及情感分类,已经成为图像标注、基于情感语义的图像检索、网络舆情监测等领域的热点研究内容。基于图像的情感分类就是运用特定算法解析图像中蕴含的情感元素。本文基于深度学习来研究图像情感分类问题,主要工作包含以下两个方面:(1)鉴于从情感
学位
跨模态视觉内容生成是指通过多种模态信息的输入完成视觉内容的生成,它同时涉及多个领域,如计算机视觉、自然语言处理,因此它的实现需要依靠深度学习、图片生成、文本特征编码等多种基础技术。视觉内容包括图片、视频等形式。目前的文本到图片生成模型,难以保证在复杂环境下生成结果的语义一致性与真实性。而视频生成模型方面,直接对视频进行建模的模型表现还较差,主要体现在视频帧的连贯性上以及运动内容的一致性和真实性等问
学位
雾霾是一种传统的大气现象,其中的雾霾、烟和灰尘等颗粒会遮盖大气的透明度。而且由于空气污染(粉尘、雾气和烟雾),在室外环境中拍摄的图像通常也会遇到复杂,非线性和与数据相关的噪声。作为图像恢复技术,图像去雾在计算机视觉中受到了广泛的关注,并有利于后续的高级任务,例如目标检测。图像去雾是计算机视觉和多媒体技术领域的一项基本任务。它在进行去雾的过程中一般面临以下几方面挑战:i)图像中雾度的不均匀分布;ii
学位
随着信息获取技术的快速发展,互联网上产生了海量的多媒体资源,在大数据时代下,这些多模态数据的管理给传统单模态检索方式带来极大的挑战。为了能够更有效地检索出用户需求内容,所以有必要研究快速且精确的跨模态检索方法。由于不同模态数据具有不同空间分布,所以存在异构鸿沟。另外,底层表示和高层语义之间也存在语义鸿沟。如何解决跨模态数据的语义鸿沟和异构鸿沟一直是亟需解决的问题。目前大多数跨模态方法都是学习一个公
学位
视频问答任务(Video Question Answering,Video QA)旨在根据视频和基于视频的自然语言问题推断出正确答案,因此视频问答是解决从海量数据中提取需要视频内容的重要方式之一,是理解精细化视频内容的研究之一,同时也是研究跨模态信息(视频、音频以及文本)融合与推理的关键任务之一。视频是由多帧静态图像组成的动态视觉内容,相邻视频帧之间的整体内容变化往往比较微弱,因此相邻帧中的对象往
学位
恶劣环境下拍摄的图像通常会存在明显的退化现象,导致图像内容缺失,视觉质量下降。单幅图像去雨和暗光图像增强是恶劣环境下图像复原与增强的重要任务。单幅图像去雨任务旨在去除雨图中的雨纹,复原图像的本真样貌。然而图像去雨过程中往往还会出现图像纹理细节信息模糊和丢失的问题。暗光图像增强任务旨在增强暗光图像的亮度,使图像内容能够清晰完整地展现。然而暗光增强过程中往往还会出现噪声放大、细节模糊和色彩偏差的问题。
学位
随着互联网和多媒体技术的快速发展,网络上每时每刻都在产生大量的、内容复杂的视觉数据。如何利用机器学习算法自动地从复杂数据中提取出有价值的信息,进而用于处理后期的分类或聚类任务,逐渐成为了近来热门的研究课题。由于真实世界中的视觉数据通常缺少标记信息,而传统的监督学习方法需要采用费时费力人工方式进行标注,因此在应用上受到限制。相比于监督方法,半监督方法可以使用少量的有标记样本和大量的无标记样本进行学习
学位
心率是一项人体重要的生理指标,心率指标的准确监测对健康医疗和疾病预防有着重要的研究意义和实用价值。其中非接触式的心率检测方法中的远程光电容积描记术(r PPG)技术以便捷、安全和低成本的优势成为目前研究的热点。但该项技术存在一些限制,如视频冗余信息、头部运动、光照强度变化以及其他生理信号的干扰。因此,为了克服上述限制,本文设计了新颖的端到端的神经网络,学习从面部视频信息到真实心率的映射关系。主要工
学位