【摘 要】
:
随着人工智能的发展,计算机视觉和自然语言处理交叉领域的研究逐渐引起科研工作者们的兴趣,指称表达理解(Referring Expression Comprehension,REC)就是其中之一。指称表达(R
论文部分内容阅读
随着人工智能的发展,计算机视觉和自然语言处理交叉领域的研究逐渐引起科研工作者们的兴趣,指称表达理解(Referring Expression Comprehension,REC)就是其中之一。指称表达(Referring Expression)是指描述场景中某个特定物体的自然语言表达,例如“穿着蓝色衣服的人”、“在桌子上的苹果”等等。REC任务要求算法能够在给定的图像中定位指称表达所描述的物体。目前的REC方法都假设指称表达所描述的物体一定存在于图像中,没有判断指称表达与图像是否匹配。然而,在实际应用场景中该假设是不成立的。例如,有视力障碍的用户命令他的REC机器人“请把桌上的笔记本电脑拿给我”,但实际在桌子上的是其他物体。因此,若不匹配的指称表达与图像作为目前REC方法的输入,则其会输出错误的定位结果。针对上述问题,本文的主要研究内容如下:本文在第三章和第四章提出了模块化REC方法来解决上述问题,模块化REC方法能够判断指称表达与图像是否匹配,如果判断指称表达与图像匹配则在图像中定位指称表达所描述的物体,如果判断指称表达与图像失配则生成文本反馈来解释失配的具体原因。模块化REC方法分为四个模块分别是表达解析模块、实体检测模块、关系检测模块和匹配检测模块。表达解析模块能够解析出指称表达中的关键信息主语、宾语和关系。实体检测模块能够检测图像中存在的实体并组成实体字典。关系检测模块能够检测图像中两个实体之间的视觉关系。匹配检测模块根据上述模块所获得的信息来判断指称表达与图像的匹配性并输出文本反馈或者定位指称表达所描述的物体。本文在第五章基于公共数据集Ref COCO+构建了NP-Ref COCO+数据集,并通过实验分析了该数据集。本文在NP-Ref COCO+数据集上设计实验并评价了本文方法的表现,实验结果表明本文方法能够有效判断指称表达与图像的匹配性和定位指称表达所描述的物体。
其他文献
从大型数据库中查找出用户最感兴趣的k个数据来支持用户多标准决策的制定是数据库领域一个重要的研究课题。k遗憾查询使用最大遗憾率的衡量标准,返回k个使得用户的最大遗憾率最小的数据。但是,目前已有的关于k遗憾查询的研究存在效率较低和结果集会偏向于最不满意的用户的问题。论文针对k遗憾查询存在的问题,研究了基于用户开心度的k代表点选取技术,结合目标函数函数的特性,给出了高效的解决方案。主要工作和创新点如下:
移动社交网络是一种将社交科学与无线通信相结合应用于移动网络的技术,其主要用于解决网络中由于节点移动性强所造成的消息投递率低、链路中断频繁和传输延迟高等问题,从而促进网络中移动设备之间的连接,并为用户进行消息的访问、共享和分发提供有效的移动计算环境。移动社交网络被认为是能够给移动用户提供数据传递的一种服务系统。在当前的移动社交网络中,用户多采用便携式移动设备进行消息传输,但由于节点间的连接间歇性和移
随着设立公司标准的降低、企业数量的急剧增多,越来越多的公司、企业融入经济社会生活,单位行贿犯罪层出不穷,且呈现出复杂性和广泛性的特点。虽然《中华人民共和国刑法修正
低功耗、频谱资源紧缺与高速率、高覆盖率一直以来都是无线通信系统亟待解决的问题。与传统的多天线系统相比,大规模多输入多输出(Multi-Input Multi-Output,MIMO)系统,有效地开发空间资源,提高时域和频域的资源利用率,给系统带来了极大的容量增益。全双工技术采用的是同时同频双向传输模式,实现双向通信,在通信过程中使用相同的信道资源。因此,如果能够有效地应用全双工通信,即收发机在相同
Polar码是一种基于信道极化理论的新型信道编码方法,且能够达到二进制离散无记忆信道的信道容量,同时其编译码复杂度较低。Polar码在各种应用方面的研究受到了广泛关注。多层式单元(Multi-Level Cell,MLC)型NAND闪存作为一种非易失性存储,凭借其存储容量大、功耗低及存储成本小,已成为存储市场中的主流。但由于其存储密度的增加导致了数据存储的可靠性降低,从而极大地缩短了闪存的使用寿命
智能终端设备和移动互联网的飞速发展,对无线通信技术提出更高的传输质量与系统容量的需求。由于毫米波的频谱资源更为丰富,毫米波通信成为无线通信领域的研究热点。大规模MIMO和波束成形技术能有效弥补毫米波的巨大路径损耗,成为了毫米波通信的关键技术。全数字波束成形由于成本高、能耗大等特点,难以应用于毫米波通信。混合波束成形结合了数字域和模拟域的波束成形,能有效减少射频链路数,降低系统的复杂度,成为毫米波通
伴随着Wi-Fi网络的大规模建设和移动终端内嵌Wi-Fi接收机的普及,基于Wi-Fi信号的室内定位成为学术界和工业界广泛关注的热点。随着机器学习的发展,基于Wi-Fi的室内定位可以通过机器学习技术来解决。作为一种新的机器学习技术,极限学习机(ELM)具有学习速度快,计算复杂度低,泛化性能好等优点。但是当ELM理论直接用于室内定位,离线学习会存在过拟合的风险,定位结果稳定性弱。并且在数据异常情况下定
随着科技的发展人们对于图像质量的要求也越来越高,单纯从硬件方面进行提高,技术上已经达到瓶颈,且成本较高。研究者们想到从软件方面进行突破,有望克服硬件成像设备(如手机或摄像机等)的一些固有分辨率的限制,另一方面还可降低成本。因此,近年来图像超分辨率(SR,Super Resolution)算法研究成为了一个非常活跃的研究领域。现今SR算法可大体分为:基于插值的、基于重建的和基于学习的三类。基于插值的
图像作为当今社会一种常用的信息载体,其重要性与日俱增。随着图片使用量的日益增加,图像识别算法也随之成为人工智能领域一个非常热门的研究方向。近年来,有赖于卷积神经网络在图像识别领域的优异表现,越来越多的卷积神经网络优化方法和网络模型架构被研究者提出。但是,在网络性能提升的同时,随之而来的是急剧增加的网络复杂度,大多数先进网络拥有数百兆的参数量和数十亿的计算量。然而,随着卷积神经网络应用的增加,越来越