面向人机交互的多模态文本生成及可解释性分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:fangtietie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代发展,人机交互逐渐朝智能化发展,人与计算机的交互越来越接近真实世界中人与人的交互,即计算机可以听懂用户的语言并做出回应,这就要求作为交互对象的计算机需具备更广的环境感知能力和一定的推理能力。由于视觉是人主要的感官来源,让计算机具备视觉感知力且具备人的表达能力成为人机交互、计算机视觉以及自然语言处理的研究热点。本论文对智能人机交互中多模态文本生成问题进行研究,通过对视觉和文本多模态数据的分析,设计联合推理算法,最终生成文本输出作为计算机向用户的反馈。具体的,考虑到人机交互场景,我们对交互系统的三项基本能力进行研究:能够对视觉内容描述、能够回答视觉问题、能够向用户提问。多模态文本生成算法通常采用基于卷积-循环神经网络的混合模型,其中卷积网络用于对视觉内容进行编码,而循环网络用于文本的建模与生成;由于该模型可以等效为层数极深的神经网络,在训练的过程中通常受梯度消失问题的影响。因此,如何有效地对混合网络进行训练是研究的难点。同时多模态文本生成受语言偏置问题的影响,即当系统以复杂文本作为输入时,模型通常过度利用了输入文本与输出文本之间的相关性,导致模型虽然有在实验数据中表现突出,但在实际应用中泛化能力却不足;这是因为图像和语义之间存在巨大鸿沟,模型在训练和推理的过程中将差异更小的文本作为了主要的信息源,忽视了视觉内容上的差异,导致系统的可靠性不足。这种语言上的偏置造成的训练和推理的困难使得模型的优劣无法被可靠地评判,因此设计偏置更小的任务以及对当前任务开发有效地模型评价和诊断的算法也是研究的重点。针对以上问题,本文首先从模型设计和训练策略的角度,探讨如何改善卷积-循环网络的训练性能;在此基础上,我们就如何合理地向用户提出问题进行探讨,提出一种基于图片和关键词向用户提问的新设定,该设定实用性更强,并且偏置更小;最后,我们以该研究为基础,结合增强学习提出一种基于信念集的问答模型的分析与诊断方法,用于对模型的可解释性进行分析。本文的主要工作和贡献总结如下:(1)提出一种语义正则化的CNN-RNN图像描述模型。基于CNN-RNN的模型成为图像关键词描述和自然语言描述的主流模型,其通过CNN对视觉信号进行编码,RNN解码,以一种端到端的方式直接学习从图像到描述的映射,在关键词、单词关系建模上展现出极大的优势。然而现有模型均采用隐式的无语义概念层作为CNN和RNN网络的接口层,导致模型的表达能力受到制约:CNN-RNN混合网络中的梯度消失问题导致CNN部分不能得到充分训练;隐式特征的使用将关键词预测和文本建模的任务均施加于RNN使其负载过重。针对这一问题,本论文提出一种语义正则化的方法,即通过引入辅助的损失函数约束CNN-RNN网络的接口层中每一个节点均具有语义意义,并基于此设计了分级的训练策略,包括CNN和RNN的预训练以及联合训练过程。实验结果表明,本文提出语义正则化方法极大地提升了 CNN-RNN模型的表现力,并在图像的关键词描述和自然语言描述任务上达到世界领先的效果。(2)提出一种新的问题生成任务——基于图像的逆问答,即以图片和关键词为条件,生成与两者都相关的问题。传统的问题生成通常仅基于图片,即直接根据图片生成问题,这样的设定通常对智能系统主动地获取信息并无帮助。而以关键词为条件,系统则可以以一种主动的方式生成关于特定对象的问题,从而获取相应的信息以利于后续决策。本论文对该问题进行初步探索,以现有问答数据集答案为关键词,生成以此为答案的问题。从语言偏置的角度,由于关键词包含的信息有限,因此模型必须利用图像中的内容,并且根据文本和图像进行联合推理才能生成合理的问题,故该问题的语言偏置更小,也更加考验模型对多模态输入的联合推理能力。本文提出一种基于多模态融合和视觉注意机制的逆问答模型,其可以动态地根据当前状态寻找相关图像内容用于精确的问题生成。由于从图片和关键词到问题是一对多的映射,本文提出一种基于排序的评价准则,以准确地对各模型进行评测。我们的大量实验证明了模型的有效性以及评价标准的准确性。(3)为了提高逆问答中问题生成的多样性,且降低关键词到问题这种一对多映射对训练造成的影响,我们提出一种基于条件变分自编码机的逆问答模型。该模型采用隐变量建模问题中的主题、风格等因素,并通过采用编码器学习由问题到隐变量分布的映射,而解码器以隐变量、图像和关键词为输入,基于三者完成对问题的预测。由于图像和关键词中没有包含的因素己由隐变量建模,消除了训练时的歧义性。同时由于隐变量服从特定的先验分布,通过对先验分布采样随机变量,结合图片、关键词可生成多样化的问题。实验结果证明了此种建模方法的有效性,以及生成问题主题的多样性。(4)提出了基于信念集的方法用于图像问答模型的分析与诊断。我们定义问答系统的信念集为系统认为成立的所有图片-问题-答案三元组的集合,通过对问答模型信念集的收集、标注与分析,我们可以对不同的问答模型进行比较,分析其缺陷与优劣。和现有的问答模型分析与诊断方法相比,基于信念集的方法可以主动地生成新的、符合问答模型信念的问题,因而可以更加全面地对问答模型的缺陷进行分析。该方法的核心在于信念集的创建,我们提出了一种基于逆问答的信念集创建算法,通过逆问答模型对特定问答模型的信念集进行拟合,生成使问答模型在图片给定答案上得分最大的问题。对此我们提出了一种基于增强学习的训练策略,通过合理地设置奖励函数引导逆问答模型拟合策略的学习。最终的实验证明了所提算法的有效性。
其他文献
为了提高油气管网事故防控和应急技术及管理水平,保障国家公共安全,国家重点研发计划"公共安全风险防控与应急技术装备"重点专项中设立"油气长输管道及储运设施检验评价与安
本文对目前民航气象设备监控系统的工作状态进行了分析,对存在的问题和需求进行了讲述,对民航气象设备监控系统的各个功能和应用进行了说明。
【目的】分析家庭环境因素对流动人口学龄前儿童语言的影响,为学龄前流动人口中儿童保健提供参考意见。【方法】采用现场问家长试卷和现场测试儿童相结合的方式,使用图片词汇
国家珠宝玉石质量监督检验中心(NGTC)长石调查组在2009年对大量的"西藏红色长石"原料进行了宝石学性质、原石外围物质组成等实验室研究基础上,于2010年5月对西藏日喀则地区白朗县
近年来,人们对食品安全问题越来越重视,尤其是食品中农药残留问题愈发引起人们的广泛关注。由于全球范围内所使用的农药种类繁多,针对单一类型的农药残留的分析方法很难适应
在高校跆拳道选项课教学中实施快乐体育,能较好的提高跆拳道练习者的相关身体素质,也能提高练习者的体育兴趣,但男女生的提高幅度有略微的差别。
<正>一、材料与方法(一)试验条件本研究采用盆栽试验与田间试验相结合,供试土壤为潮土,质地为砂壤,供验品种为豫麦13和冀麦5418。(二)试验设计试验采用盆栽法。用直径26cm塑
<正>在胸部外伤中外伤性肋骨骨折发生率较高。通常医院对于明显分离错位的肋骨骨折诊断很明确,但对于单纯线性肋骨骨折(含不全骨折)及肋骨中段骨折在初诊时常常被漏诊。因为
会议
中国城市土地市场与房地产市场发端于住房制度与土地制度改革,在经济快速发展的转型年代迅速发展。二十几年来,城市土地价格与住宅价格不断快速增长,住宅价格和土地价格已经远远
目的:了解贵阳市部分25~34岁健康成年女性骨密度(BMD)的分布情况及其影响因素。方法:采用超声BMD仪测定贵阳市553名健康女性右侧跟骨BMD,同时测量身高和体质量、并计算体质量