利用额外信息的视觉问答算法研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:May-02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,图片、文字、视屏等各种模态的数据爆炸式增长,人类进入了大数据时代。人们产生了从海量数据中快速、准确获取信息的需求,问答系统成为学术界和工业界所关注的热点。视觉问答是问答系统前沿发展方向之一,旨在从图像中获取信息,对用户关于图像不同的问题进行准确的回答。同时,图片数据拥有越来越复杂而详尽的标注信息,这些标注信息包含了丰富的图片中对象属性和对象关系的语义信息。因此,如何有效利用额外信息提高视觉问答模型回答问题的准确率,是当前亟待解决的一个关键问题。利用额外信息的视觉问答主要分为利用图像描述的视觉问答和利用场景图的视觉问答。现有的利用图像描述信息的视觉问答算法,只考虑图像和问题之间,图像和图像描述之间的关系,缺乏对图像、问题和图像描述三者共同关系的考虑。此外,现有利用场景图的视觉问答算法,大多以生成场景图的方式利用场景图标注,但生成的场景图对象与问题无关,存在信息冗余。针对上述问题,本文设计并实现了利用图像描述和场景图信息的视觉问答算法。针对利用图像描述的视觉问答,本文提出了结合知识蒸馏的基于三线性注意力算法。针对缺乏对图像、问题和图像描述三者共同关系的考虑的问题,本算法设计三线性注意力模型来获取三方特征之间的关系。针对测试集中图像描述标签缺失的问题,本算法设计知识蒸馏模块来利用训练集中的图像描述信息。在数据集进行实验测试的结果表明,本文提出的利用图像描述的视觉问答算法,充分利用了图像、问题和图像描述之间的共同关系信息,并充分利用训练集中的图像描述信息,获取了较高的准确率。针对利用场景图的视觉问答,本文提出了基于注意力机制的场景图优化算法。针对场景图对象存在冗余的问题,本算法设计了基于软注意力机制的场景图对象筛选模型来为减少信息冗余的影响。针对场景图对象与问题无关,本算法设计了基于协同注意力机制的场景关系生成模型来考虑问题中的实体信息。在数据集进行实验测试的结果表明,本文提出的利用场景图的视觉问答算法,减少场景图对象中冗余信息的影响,充分利用问题中的实体信息,获取了较高的准确率。
其他文献
近年来,伴随着互联网技术的快速发展,视频监控系统得到了越来越广泛的应用。在视频监控系统的运营过程中,视频不可避免会出现一些质量问题,比如模糊和偏色。这些问题会极大影响监控的有效性,因此视频图像质量的自动诊断变得越来越重要。在这个背景下,本文针对视频质量检测中图像模糊和偏色的问题进行研究,在研究的基础上设计并实现了一个视频质量检测系统。本文的主要研究内容如下:在图像模糊检测方面,针对运动模糊图像和失
在如今21世纪,无线通信已经与我们的社会发展与日常生活密不可分。而由于无线通信本身所具有的开放性的特点,我们周围的电磁环境是非常复杂且多变的,也因此对无线信号的识别技术一直是人们研究的热点问题。随着人工智能技术的兴起与高速发展,信号的识别识别技术也由原先需要依靠技术人员的专业能力来判断转变为由计算机自己完成对目标信号的识别,节省了大量人力,也极大的提高了识别速度与准确度。本文的主要工作及创新点如下
当前高动态车联场景面临着多普勒频偏扩展效应对通信系统的性能造成严重影响的问题,本文从多频段性能差异、车联业务需求差异和历史频偏数据辅助三个维度出发,提出了一种新型的联合多普勒频偏估计与补偿算法,有效地实现了多普勒频偏估计与补偿,提升通信链路的性能及可靠性,从而保障了高动态车联场景下所承载业务的有效进行。本文的主要贡献包括两部分:(1)建立了基于数据辅助的多普勒频偏联合估计与补偿方法。针对高动态车联
癫痫是由神经元异常放电而导致中枢神经系统功能短暂失常的脑部疾病,其发作的形式和强度复杂多样。约30%的癫痫患者在服用药物后发作症状未得到缓解,只能寄希望于手术切除癫痫灶以进行治疗。在术前评估时,发作起始区作为癫痫灶定位显著的标志,其定位精度决定着手术的治疗效果。因此,如何实现发作起始区的准确定位具有十分重要的研究意义。目前已有多项研究表明:癫痫发作起始区内、外的高频振荡信号具有一定差异,其可被用于
随着社会经济的不断发展,人才成为企业发展过程中不可或缺的因素。但是目前企业在招聘人才时如果只凭借自身经验判断进行招聘,就会出现招聘不到人才的情况。即使招聘到人才,用人单位如果不能规划和管理好人才让每个人在合适的职位上工作,就会使个人和企业的利益同时受损。不仅如此,目前很多高校毕业生不清楚自己的职业目标,也出现了找不到适合自己工作的现象。随着职业测评在国内外的发展,职业测评一方面可以帮助企业高效的找
随着微波光子学的发展,近些年,微波光子学的一个重要应用就是光载无线通信技术,通过将微波通信与光纤通信进行结合,使得微波在光纤中实现了低损耗传输。但是在微波光子链路当中,由于光纤色散的影响,经过调制的光信号在经过光纤传输之后,会产生周期性的功率衰落,使输出的RF信号在某些特定的频率点产生严重的凹陷,引起信号的失真,严重的影响了微波光子宽带移相系统的性能,因此如何抑制光纤中产生的色散是目前提升系统性能
随着智慧城市的发展,物联网技术在人们生活中的重要性也越发凸显,其中以智慧灯杆最具代表性。智慧灯杆作为智慧城市的重要节点,其功能早已不仅仅局限于照明等基础功能,所搭载的外接模块更是覆盖了日常生活的方方面面,数量上也呈爆炸式增长。传统的智慧灯杆控制器在管理外接模块时,多通过相应的硬件接口控制器实现固定的接口通信,这就导致外接模块的接入方式多样且固定,当采用其他通信协议的外接模块接入时,利用硬件接口则无
移动互联网的蓬勃发展使得人们很容易建立关系,因此全球范围内存在高度分散的在线社交网络。如此大量的在线数据可以用于刻画实体与实体之间的关系,使得社会网络分析成为研究热点。随着研究的深入,网络分析已经从早期的单一结构特征分析,发展到多种网络结构的联合挖掘以及多源信息的融合分析。社交网络融合分析是将多来源、多关系类型和异构的信息融合在一起,并以统一的分析框架对这些信息进行融合分析,实现协同挖掘任务。基于
随着移动设备的普及,移动设备中包含用户的隐私信息越来越多,隐私信息的泄露将会带来巨大的损失,因此对于移动设备的安全要求越来越高。传统的一次身份认证方法已经不能满足当下对移动设备的安全需求,连续身份认证方法应运而生。虽然连续身份方法可以持续验证用户的身份,但其存在着认证准确率不足且可用性不高的问题,针对这些问题,本文提出了基于用户行为融合的连续身份认证方法和基于上下文识别的连续身份认证方法,同时设计
开放移动联盟OMA作为移动业务的主要的标准化组织,提出了针对物联网受限节点网络的通信标准,即轻量级机器到机器LWM2M,其中采用IETF CoRE工作组提出的CoAP协议,定义了 CoAP over SMS的协议栈来保证受限节点网络的通信需求。本文研究的基于Californium开源框架的CoAP over SMS能够满足受限节点网络的通信需求。但在网络通信环境中仍然存在问题:第一是缺少在一个应用