基于深度神经网络的跨模态检索技术研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:zhmwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的应用和多模态的深入研究,与此对应的问答系统也从传统的文本问答扩展到结合图片的视觉问答,成为计算机视觉与自然语言理解的交叉研究热点之一。现有视觉问答处理方法的基本思想是通过融合提取后的图像和文本特征来实现对答案的预测。但是此类方法一般会忽视了图像的空间分布信息,未能够合理的利用图像的空间分布信息与文本之间的关系。本文通过对视觉问答中的图像和文字信息开展多模态的研究,提出了一种新的空间离散余弦哈希动态参数网络方法,所提方法可同时结合问题特征和图像特征实现视觉答案的预测。进一步,针对招牌检索这一实际应用问题,本文在前期视觉问答跨模态研究的基础上,结合目前计算机视觉学术界广泛使用的深度学习方法提出一种能处理多角度、多模态信息的招牌检索算法。本文对跨模态问答和检索问题研究的主要工作如下:1、提出了在不增加网络参数的情况下采用全卷积的方式来完成对图像的空间分布信息的提取。同时采用空间离散余弦哈希动态参数网络来动态结合问题特征和图像特征,从而使得答案的预测能够充分考虑图像的局部空间信息。2、本文整理了多角度的、多信息的招牌数据集(总计店铺约2400家,图片约23000张),数据集中每间店铺包含多张图片,且含有该店铺的GPS信息以及店铺名称街道名称等特征。3、采用多模态信息对招牌进行识别,本文提出CMR-Net模型有效地结合了招牌的图像特征和文本特征,从而能够完成处于不同环境下招牌检索任务,并且在本文的招牌数据集上已经能达到商用精度。最后本文在视觉问答公开数据集上(MSCOCO-VQA,COCOqa)进行实验,实验表明本文的方法较以往的方法有性能上的提升,能够达到更高的准确率。同时本文还在自己的招牌数据集上对本文的招牌检索算法和一些常见的图像检索算法进行性能对比,实验表明本文的跨模态招牌检索模型具有比较好的检索效果。
其他文献
不断膨胀的移动互联网业务规模为电信核心网的可扩展性带来挑战。作为3GPP提出的下一代核心网,IMS(IP Multimedia Subsystem)沿用了集中式的组网方式,可扩展性存在严重问题。利用
三维动画是三维图形表现技术中的代表性技术,作为模拟真实和虚幻视觉世界的高级技术,在创作空间和表现力上具有其他同类技术不可比拟的优势,在户界面设计上应用三维动画可以在操
随着SOA(Service Oriented Architecture)及云计算等新兴计算模式的快速发展,作为SOA具体实现的Web服务(Web Services)也得到了迅速发展。如何根据用户对服务质量和安全及成本等
根据CAP理论,分布式文件系统在可用性、一致性和分区容忍性三个方面不可能同时满足。在分布式环境中,硬件故障、软件故障、网络分离及电源故障都可能导致分布式文件系统中节点
传统模式下的云应用的开发、发布、部署和维护有着诸多的不足,它们往往给应用开发者、云平台开发者以及云平台终端用户带来繁重工作量。让云平台以虚拟设备的方式封装云应用并
信息检索是当今计算机领域研究的热点之一,其目的是为了满足用户对信息需求,即从海量信息中查找到所需信息。但是由于用户查询与文档表示的不确定性,往往会影响文档与查询的匹配
随着电子产业和通信技术的飞速发展,移动终端以其强大的处理性能已经从简单的通话工具变为一个综合信息处理平台。丰富移动终端功能并且及时地更新其软件版本,才能更好地适应移
基于视觉的手势识别技术是自然人机交互方式中一个非常重要的研究方向,在虚拟(增强)现实、机器人控制、智能家电、游戏控制以及人机手语翻译等领域有着广阔的应用前景。但是由于
随着信息技术的快速发展,信息海量增长,如何从大量数据中获取有用信息是人们急需解决的问题。信息多数是以文本的形式出现,而中文是世界上使用人数最多的语言,所以研究中文文
随着信息技术的飞速发展,设备日趋集成化与复杂化。对于如何能及时从大量实时状态数据中发现故障,保证设备在工作期间高效、可靠的运行具有重要的研究意义。传统的故障诊断方法