融合对话历史的视觉对话技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mwchy362
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来深度学习技术在计算机视觉和自然语言处理等领域取得了成功。随着深度学习技术的进步,视觉分析、自然语言处理等任务的性能不断提升。研究人员开始关注视觉与语言相结合的多模态任务,如图像描述、视觉问答和视觉对话等。此类多模态任务不仅依赖对视觉内容的准确分析,同时也要求对自然语言的准确理解。其中,视觉对话(Visual Dialog)旨在给定一幅图像、若干轮对话历史以及后续问题后,计算机能准确回答此问题,完成对话。相比于其他多模态任务,视觉对话任务更为复杂,且在聊天机器人、智能客服、盲人辅助导航等领域都有着广泛的应用前景,已成为当前的研究热点。现有的视觉对话技术大多采用“编码器-解码器”技术框架,在每一轮对话中,由多模态的编码器将视觉、语言样本输入编码为特征向量,再由解码器推理并输出该轮问题的答案。然而,现有方法没有充分考虑图像、对话历史以及后续问题之间的相关性,无法表征三者之间的协同信息。同时,现有方法仅使用数据样本中正确对话历史来生成问题的答案,忽略了错误对话历史对问题答案的潜在影响,导致模型缺乏对对话历史的敏感性,无法有效地进行基于对话历史的上下文推理。为充分挖掘利用视觉对话过程中的对话历史信息,提高视觉对话任务性能,本文的主要研究内容如下:1)为对图像、对话历史以及后续问题进行有效的特征编码,本文提出了一种基于历史感知协同注意力网络(History-Aware Co-Attention Network,HACAN)的视觉对话网络模型。该模型在计算三者各自的特征表达时通过协同注意力机制综合考虑了其它两者的影响,实现三者之间的特征信息交互,不仅充分挖掘了各自特有的特征,同时也充分表达了三者之间的协同信息。2)为了提高模型对对话的上下文推理能力,本文提出了一种基于历史优势序列训练(History-Advantage Sequence Training,HAST)的网络训练方法。该方法在训练中将部分对话历史进行篡改,并分别对基于正确对话历史和经过篡改的对话历史所得到的答案进行评估。评估分数之差作为历史优势,量化对话历史对模型输出答案的影响,反映篡改部分与后续问题的语义信息和逻辑关系,引导网络学习对话间的逻辑信息。该方法通过将历史优势引入网络梯度计算,并将梯度反向传播至历史感知协同注意力网络进行训练,实现了上下文推理能力的学习。3)为验证融合历史的视觉对话技术的有效性,本文设计了一系列的消融实验。实验表明,历史感知协同注意力网络模型及历史优势序列训练方法能够有效地利用对话历史信息,提升视觉对话模型的准确性。同时,在三个主流的视觉对话数据集上,本文所提出方法的性能也超过了同期的视觉对话方法。
其他文献
在天文学研究的热点问题驱动下,天文望远镜正向着更强集光能力、更高分辨力、更全波段等方向发展,增大望远镜口径是解决上述问题的重要技术途径。围绕大口径望远镜研制需求,科学家们提出拼接主镜方案:拼接主镜由数个子镜面拼接而成。应用拼接主镜的最大优点是极大的减轻了主镜的自重,各个子镜口径较小,子镜面的支撑系统相比于大口径单镜面而言大大简化,并且其加工制造运输难度也大大降低。但是拼接主镜各个子镜间的相对位置难
随着计算机和传感器等机器人相关技术的快速发展,移动机器人的使用也越来越多。考虑到医院环境的特殊性,医护人员工作压力较大,因此,在医院中使用机器人代替护士的一些简单工
学位
《点石斋画报》创办于1884年,其出版发行的十五年正好是晚清中国风云变幻的时期。作为新闻画报,它始终在记录晚清一代的社会生活与历史变迁。尤其是画报对民风民俗的记叙很有
在本文中,基于全局优化的烟花算法(FWA),将现代计算启发式范式应用于非线性有源噪声控制系统(ANC)。参考麦克风用于采集噪声信号,误差麦克风用于采集残差噪声信号,该信号同时
光学测量系统作为一种有效监测目标的手段,一直受到大家的重视。由于传统的靶场光测设备使用的调焦技术一般需要依赖额外辅助的设备指导调焦操作,不符合光测设备集成化的发展要求。而基于图像的自动调焦系统,只需依靠图像信息即可完成调焦,且硬件结构集成度高、运算速度快,逐渐成为自动调焦领域的主要研究方向。但是基于图像处理的自动调焦方法是一个逐渐寻找调焦最优值的方法,在实时调焦系统中,调焦速度慢是该方法有待解决的
许多工业过程,如蒸馏塔、热交换器和反应堆等,都可以用时滞多变量系统建模.时滞的存在使得系统的输出不能及时响应,且稳定性变差,设计系统控制器时对时滞参数的精度要求较高,
随着经济的发展,能源的消耗也日益增长,面对传统化石能源短缺的问题,太阳能以分布广、能量充足等特点是目前清洁能源中最重要一类,通过研究太阳能光伏并网发电技术提升发电效率与规模,可以显著的改善当今能源短缺问题,对于改善生态环境具有重要的意义,并具有极大的经济、社会效益与学术研究价值。本文首先介绍了光伏电池的工作原理及数学模型,根据建立的数学模型,并采用合适的参数基于simulink平台搭建了仿真模型,
宽谱光电探测器主要是获取目标发射或反射的紫外(UV)、可见光(VIS)、红外(IR)等各个波段的电磁波信息,用以在各种环境下准确地识别和分析目标,在成像、遥感、医学诊断、夜视、环境监测等领域有广泛应用。为了研制宽谱高响应率的光电探测器,本文将具有高吸光率的半导体纳米材料与具有高输运特性的还原氧化石墨烯(Reduced Graphene Oxide,RGO)相结合,分别制备了MoS2-RGO、MoS
学位
新疆南疆地区独特的地域特点和气候特征形成了特殊的农业类型,为了充分利用新疆南疆农林生物质资源,本课题通过对南疆各地区的生物质资源进行调研,掌握生物质资源的分布及利用情况,在南疆各地区采集种植数量最广泛的果树残枝样本,用相关理化试验方法检测出不同种类果树残枝样本中的pH值、电导率、工业分析组成(水分、挥发分、灰分和固定碳)、木质纤维素组分(纤维素、半纤维素和木质素)和元素分析组成(N元素、C元素、H