基于多模态信息融合的生成式问答系统研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:woshizd0214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习引起的人工智能热潮,激发了研究者们通过深度学习探索问答系统的热情。问答系统作为人机交互的重要方式,能够让机器通过人类语言与人进行交流。由于现实世界的信息通常包含多种模态,如视频,音频,文本等;而以往的问答系统研究中大多数都是针对结构化数据,文本或者图像的单一模态。基于单一模态的问答系统很难综合各种信息的来源,容易对问题的理解和自然语言的生成与实际问答场景产生偏差。建立能够处理和关联多模态特征的多模态问答模型,有助于对多模态信息进行解释和推理。多模态问答系统的主要挑战在于各个模态特征和问题之间的交互建模。由于不同模态信息和问题之间存在语义鸿沟,难以采用一般的Seq2seq模型进行回复的自然语言生成。本文提出一种基于多模态注意力机制的生成式问答模型(Mm_Att_QA)。Mm_Att_QA主要包括Encoder,场景描述,Decoder三个模块。(1)Encoder模块:Encoder模块的作用是对视频、音频、历史交互记录和当前的问题进行特征提取和编码。针对视频,采用迁移的I3D模型进行特征提取;针对音频,采用迁移的VGGish进行特征提取;针对历史交互记录和当前的问题,采用word2vec和双向LSTM进行特征提取。(2)场景描述模块:为了削弱视频、音频和文本之间的语义鸿沟对问答系统性能的影响。场景描述模块通过监督学习的方式将音频和视频的特征生成场景描述的文本信息,有利于促进融合视频和音频特征生成最终的回复。(3)Decoder模块:Decoder模块的目标是根据当前的问题输入,通过多模态注意力机制融合各种模态特征,进行回复生成。为了寻找与问题相关的特征,首先将各个特征和当前问题进行关联。生成回复文本中的每个词时,再通过多模态注意力机制寻找各模态信息中强关联的特征。为了平衡场景描述任务和回复生成任务的比重,本文提出了复合的损失函数。实验结果表明,本文所提出的多模态信息融合的生成式问答系统,在多个评价指标上均优于其他基准模型;并且对模型的影响因素做了详细的讨论与分析。
其他文献
随着参数化模型拟合重建思路的提出,基于单幅图像的人体模型拟合方式得到了巨大的发展空间。但是,现有的研究工作中常常忽略了相机参数误差对结果产生的影响以及稀疏骨架不同
高速串行接口(Ser Des)芯片在航天工程和武器装备中的雷达、无线电通信、影像成像等高带宽要求应用领域有着广泛的需求,已逐步成为超高速转换器数据传输的标准接口。单粒子效
径向基(RBF)神经网络是一种典型的前馈型网络,因为其只有一个隐含层的简单构造,较快的学习速度,不容易陷入局部最小化,具有良好的泛化能力等优点在很多领域都体现出了优越性。粒子群优化算法(PSO)作为一种智能搜索算法,有较强的全局收敛能力和鲁棒性,且模型简单,没有遗传算法中的遗传操作,常被应用于RBF神经网络的参数寻优中。本文主要研究对象为PSO-RBF神经网络算法,在PSO算法改进方面选择收敛的惯
质谱是一种通用的检测手段,它可以提供离子的质荷比和结构信息。且质谱同时具备高灵敏度,适于定性定量分析,易于小型化等优点。然而在分析复杂样品分析时,由于基质效应的存在,如果复杂样品未经预处理或者分离过程,实际样品中低丰度的组分很难被检测出来。但是小体积或低浓度的样品很难经受复杂的预处理或分离过程。因此,急需一个简化的且效率高的分离方法。在液相条件下,液相色谱和毛细管电泳可以和质谱进行联用用于复杂样品
近年来,移动设备产品的增加使得无线通信的服务需求呈现出了爆炸性地增长。高效、灵活地利用好频带资源,是解决好无线通信服务供给与用户需求的关键性因素,这驱动着无线通信
混凝土是我国工业与民用建筑等工程领域采用最为广泛的建筑材料之一,随着混凝土建筑使用年限的增加,其结构和材料耐久性问题越来越引起国内外诸多学者的关注。抗冻性作为衡量混凝土耐久性的一项重要指标,国内外学者提出了许多理论,并做了大量实验研究,包括干湿循环、盐腐蚀和冻融破坏等环境耦合作用下的混凝土试件各项性能研究,但是关于钢筋混凝土构件在荷载、复合盐及冻融循环作用下受压承载力损伤的研究较少。冻融破坏已经成
《中华人民共和国城乡规划法》是统领我国城乡规划与建设领域的一部法律.尤其是该法第六十八条的制定具有突破性和创造性,该条确立了行政机关自行强制拆除违法建设的“新模式
精神疾病公众污名是指个体对精神疾病的负面态度,通常包括负面的认识、消极的情感体验以及由此产生的歧视行为,它会使精神疾病患者被贴上诸如“神经病”、“疯子”等耻辱性标
数控加工中,刀具轨迹的速度规划对曲面的加工质量有着重要影响。当前主流速度优化算法只考虑沿进给方向的优化,而忽视了加工速度在刀位点曲面(简称CL曲面)横向的一致性优化,继而可能导致加减速区间沿横向的错落分布,最终影响曲面的加工质量。针对上述情况,本文提出了一种在三轴数控加工中,基于CL曲面的速度横向优化算法。算法核心包含以下三步骤:CL曲面横向信息的重构,CL曲面特征线的构造,以及横向一致的轨迹速度
经济快速发展诱发了更多出行需求,城市内交通拥堵问题日益严重。智能交通系统被认为是缓解拥堵提高效率的有效方法之一。交通预测技术能够为智能交通系统实现交通信息发布与