基于多模块注意力机制的指示表达研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:tffx7677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指示表达是近年来计算机视觉和自然语言处理交叉领域中一项具有挑战性的多模态任务。该任务给定一个图像和一个自然语言语句作为输入,其目的是在图像中识别并定位出一个与自然语言所指示的实体对应的区域。因此,指示表达需要精确理解单词与单词、图像区域与区域之间的结构关系问题。目前的方法没有考虑文本和图像全局特征中的复杂结构,仅捕获了图像和文本的局部依赖关系,导致无法准确建模对象与对象之间的关系,使得指示表达的性能极低,任务极具挑战性。针对该任务的挑战,本论文从如何加强图像与文本全局依赖关系的角度入手进行深入研究,主要研究内容如下:1.针对指示表达现有的方法缺乏在表达中利用不同类型的信息词来准确构建视觉和语言全局特征的能力,本文提出了一种基于多模块注意力机制的指示表达方法,通过引入注意力机制来关注与指示表达识别目标相关的重要信息特征,提取了更多层面的语义信息,同时加强了视觉和文本的全局依赖性,使其能够更好的建模图像中的长期依赖关系。通过在Ref COCO、Ref COCO+和Ref COCOg数据集上与其他方法的比较,证明了该方法在基于目标分割的指示表达任务中的有效性。2.针对目前的指示表达方法不能很好的提取出合适的目标对象的上下文信息的问题,论文设计了一个视觉和语义特征序列生成模块。模块主要利用图像信息,根据输入的语言表达式,自适应地在线生成多个查询特征序列向量。不同的查询序列可以强调不同的单词,然后找到更合适的权重,以增强跨模态中视觉和语言的有用信息,这增强了模型在处理随机且复杂输入方面的鲁棒性。实验表明,加入该模块可以适当提高模型的性能。3.针对目前的一些方法通过孤立地处理图像中的对象来捕获视觉和文本的局部依赖关系的问题,论文设计了一种视觉语言融合模块,该模块主要由一种改进的多模态Transformer模型构成。通过在传统Transformer的基础上增加多层感知器网络层,提高视觉和语言模态间和模态内的交互作用,以增强复杂的非线性处理能力,最终提高模型捕捉局部特征的能力。该模型不仅保留了传统的Transformer结构对全局特征信息依赖关系的建模能力,还提高了其捕捉局部特征的能力。通过对比实验证明了该模块的性能及其有效性。
其他文献
线粒体是生物细胞中重要的双膜细胞器,参与着细胞生命活动。线粒体包含四种结构,每种结构中的蛋白质都发挥着各自的生物功能。确定蛋白质的亚线粒体定位,有助于深入研究线粒体中蛋白质的功能,为药物设计和癌症研究提供信息。得益于计算科学的迅速发展,目前研究学者已提出大量计算方法来预测蛋白质亚线粒体定位。本文将深度学习的Doc2vec技术引入到蛋白质序列编码中,对蛋白质亚线粒体定位预测问题进行了深入研究。提出了
学位
现实中很多网络的规模是庞大的,使得在其上的科学研究开销大、效率低。网络图抽样是从原图中抽取一个规模较小的子图进行研究,能够节省资源、提高计算效率,对网络中的数据挖掘具有重要意义。采用蓄水池技术的动态流式图抽样技术,对流图中的每条边处理一次,大大节省了空间和时间开销。然而,现有的算法使得抽样子图中低度的节点占比过大,具有关键作用的高度节点的比例却过低,有时甚至无法被抽取到,导致抽样得到的子图代表性不
学位
移动群智感知意指大量用户使用移动设备执行感知任务,形成一个交互的、参与的感知网络,达到收集感知数据的目的。传统的移动群智感知是以第三方可信中心作为感知任务的发起者与感知任务的参与者之间的中介,在两者之间零信任的情况下达成任务交易。故第三方可信中心存在一定的安全隐患,包括可信中心的单点故障、黑客攻击、滥用用户信息和基于感知数据质量的可信中心与任务发起者或任务参与者共谋等问题。因此,本文研究内容如下:
学位
在典型的视频通话场景中,目标说话人的正脸会出现在视频中,他的语音会出现在音频中。但是其中也会有其他干扰说话人语音以及非语音背景噪声出现。这种情况下往往很难听清目标说话人的语音,使听者感觉不舒服,从而造成不好的听觉体验。为了改善用户的听感体验,我们需要训练一种能够在特定场景中选择性分离出目标说话人语音的机器。而在实际生活中,人耳具有选择性聆听和感知声音方向和距离等功能,使得人类可以根据自己的需求选择
学位
阅读是每个人必须掌握的技能,是在生活和学习中必须具备的能力。幼儿园时期的儿童不认识汉字,需要教师为他们创设情景阅读教学环境,让幼儿在声音、图画和视频多种元素结合的情景中学习阅读内容,提高幼儿的阅读想象力。教师在情景阅读中可以为幼儿设置生活化情景、绘画阅读情景等,让幼儿感受到阅读的乐趣,引导幼儿在阅读中提高语言表达能力和观察能力等。基于情景阅读的教学模式,探讨幼儿园进行多元化教学的实践。
期刊
支持Wi Fi的移动设备周期性地广播Probe Request帧,以探测周围可用的Wi Fi网络。在公共场合,利用Wi Fi嗅探设备可以捕获行人携带移动设备发出的Probe Request帧,由于其中蕴含了设备的媒体访问控制(Medium Access Control,MAC)地址等重要信息,可以实现人群计数、轨迹追踪等应用。然而,为了保护用户身份、位置等隐私信息,现代移动设备通常在Probe R
学位
近年来,神经机器翻译取得了较大的发展,其中篇章级机器翻译由于应用价值高、模型结构丰富,已经成为了神经机器翻译中的一个研究热点。但现有的篇章翻译模型只能通过注意力机制获取线性距离层面的句子相关性信息,模型在输出篇章级译文时难以获取篇章层面上的深层语义和衔接,因此存在难以利用深层上下文信息的问题。针对上述问题,本文使用路径位置编码和相关性位置编码的方式改进了篇章翻译模型位置信息的输入,提出了能够关注位
学位
近年来,社交网络软件已经成为全世界人们使用最频繁和最受欢迎的应用软件。而社交网络中蕴含大量用户个人信息,若不加处理直接发布,则有泄露用户隐私的风险。因此,在用户隐私与数据实用性两者之间取得平衡成为社交网络隐私保护领域的一大挑战。针对上述问题,本文提出以下两种算法:(1)基于树结构的K度匿名隐私保护算法。本文提出一种简单有效基于树的K度匿名算法TKDA(Tree K-Degree Anonymity
学位
一组物种的进化历史传统意义上是表示为一棵系统发生树,系统发生树可以描述树状进化事件,对于网状的进化事件很难用这样的模型来描述。系统发生网络可以描述网状进化事件,例如、杂交(hybridization)、重组(recombination)、基因复制(duplication)、丢失(loss)或水平基因转移(horizontal gene transfer)等。本文介绍了系统发生树及网络中的术语,包括
学位
在互联网飞速发展的时代背景下,学术论文的发文率急剧上升,用户所面临的论文信息过载问题也越来越严重。因此,将学术论文进行个性化推荐成为解决这一问题的一种行之有效的方法。虽然有很多学者都正在致力于研究如何提高个性化推荐的效率,但目前的推荐系统还面临着大量的问题,例如,稀疏的数据容易造成过拟合,没有大量用户数据的情况会影响推荐结果的准确性,以及如何使推荐结果多样化等。针对以上问题,本文提出了基于深度学习
学位