深度学习跨模态图文检索研究综述

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:kingknife2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度神经网络的兴起,多模态学习受到广泛关注.跨模态检索是多模态学习的重要分支,其目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本.近年来,跨模态检索逐渐成为国内外学术界研究的前沿和热点,是信息检索领域未来发展的重要方向.首先,聚焦于深度学习跨模态图文检索研究的最新进展,对基于实值表示学习和基于二进制表示学习方法的发展动态进行了详细介绍,其中,基于实值表示的方法用于提升跨模态语义相关性,进而提高跨模态检索准确度,基于二进制表示学习的方法用于提升跨模态图文检索效率,减小存储空间;其次,总结了跨模态检索领域常用的公开数据集,对比了不同算法在不同数据集上的性能表现;此外,总结并分析了跨模态图文检索技术在公安、传媒及医学等领域的具体应用情况;最后,结合现有技术探讨了该领域的发展趋势及未来研究方向.
其他文献
手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用.针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法.通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重叠率规则的整合以及连笔切分,得到一系列字符片段,同时利用笔画个数、宽高比、中心偏离、平滑度等几何特征和识别置信度,对字符片段进行中英文分类.在此基础上,根据分类结果并结合自然语言模型的路径评价及动态规划搜索算法,分别对候选的中、英文字符片段进行合并处理,得到待识别的中、英文字符序列,并将其分
为满足大规模脉冲神经网络(SNN)的计算需求,类脑计算系统通常需要采用大规模并行计算平台.然而随着节点数量的增多,通信在仿真中所占比例大幅增加,导致计算效率下降.类脑模拟器开源软件NEST采用缓冲区大小相等的策略,有效缩短了通信时间,但是由于缓冲区互相无交流,使得通信数据量持续增加,因此其在能耗方面表现较差.分析NEST集群的负载特性,针对其中的通信问题进行稀疏性优化,提出基于SNN子图跨节点优化的神经元重分布算法ReLOC.通过优化SNN子图的跨节点分布减少每一轮神经元到进程的数量,从而减少跨节点脉冲,
现有的立体匹配算法通常采用深层卷积神经网络提取特征,对前景物体的检测更加精细,但对背景中的小物体及边缘区域匹配效果较差.为提高视差估计质量,构建一个基于视差优化的立体匹配网络CTFNet.分别提取浅层与深层特征,并基于深层特征构建全局稀疏代价卷,从而预测初始视差图.在预测的初始视差图和浅层特征的基础上构建局部稠密代价卷并进行视差优化,以细化预测视差值邻域的概率分布,提高特征不明显区域的匹配精度.此外,引入新的概率分布损失函数,监督softmax函数计算的视差值概率分布在真实视差值附近成单峰分布,提高算法的
影像拼接是生成大规模数字正射影像的关键技术之一,但现有的影像拼接方法在进行多个影像拼接时存在拼接线穿过明显地物导致的鬼影现象.光流是观察者和场景间相对运动引起的影像边缘等的相对运动,其中,大光流对应影像间的变化区域,可用于检测正射影像间的明显地面区域.提出一种基于光流引导的新型影像拼接方法,通过超像素的密集光流提取影像中明显的地物信息,以避免接缝穿过明显的地面物体.采用由粗到细的接缝线优化策略,并在超像素级别上利用Dijkstra算法进行最佳拼接区域检测,从而提高接缝线检测的效率.在此基础上,结合归一化互
通用视频编码标准H.266/VVC通过引入多种新的编码技术,如仿射运动补偿预测、自适应运动矢量精度、多核变换等,以支持360°视频和HDR视频的编解码,从而为用户提供最优的视频质量,但是在H.266/VVC帧间预测过程中,仿射运动估计计算复杂度高导致编码时间显著增加.针对该问题,提出一种改进的仿射运动估计算法.通过对仿射高级矢量预测(AAMVP)候选列表的构建过程进行改进,并构建一种AAMVP候选列表候选项筛选准则,使得列表的候选项更接近编码块真实的运动矢量,从而缩短编码时间.同时对仿射运动估计中迭代搜索
大气散射模型与有雾图像及对应清晰图像间的映射模型不适配,导致使用大气散射模型进行图像去雾处理时,图像存在颜色偏差、纹理细节粗糙等问题.基于模拟生物视觉系统的反馈原理,提出一种端到端的循环生成对抗网络算法,以解决误差累积造成的去雾图像低质的问题.通过生成模块将循环神经网络的隐藏状态作为反馈信息,以指导低级模糊特征信息生成更加丰富的高级特征.循环结构能够保证先前的网络层可以使用到后面网络层的高级特征信息,从而减少误差累积.此外,该算法能够根据判别模块的损失来评估重建图像的质量.实验结果表明,与GCANet算法
在场景文本检测领域,存在由于文本尺寸波动较大导致的小文本漏检、大文本欠检测和多尺度文本边界检测错误的情况.针对上述问题,提出一种基于学习主动中心轮廓模型的场景文本检测网络.在残差网络ResNet的基础上构建多尺度特征权重融合模型,对输入的场景文本图片进行多尺度特征提取和权重融合,并计算出最终的特征融合图,适应场景文本长宽比变化较大的情况.在此基础上,将融合后的特征图输入到学习主动中心轮廓模型预测文本框的中心点和边界,该模型为场景文本检测提供丰富先验知识,以解决多尺度文本检测框包含过多背景或部分包围文本造成
实体链接是明确文本中实体指称的重要手段,也是构建知识图谱的关键技术,在智能问答、信息检索等领域中具有重要作用,但由于短文本的上下文语境不丰富、表达不正式、语法结构不完整等特点,现有的短文本实体链接方法准确率较低.提出一种新的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中,从而增强短文本实体链接方法的效果.在此基础上,构建多任务学习模型,将短文本实体链接作为主任务,并引入实体分类作为辅助任务,促使模型学习到更加通用的底层表达,提高模型的泛化能力,优化模型在短文本实体链接任务中的表现.在CCKS
分布式计算与系统一直是承载重要信息化基础设施的基础.一方面,分布式计算的理论、技术与系统的研究发展可有效助力大型信息系统(如云计算、边缘计算、5G网络等)的快速发展;另一方面,新兴的信息技术与应用(如区块链、机器学习等)也在倒逼分布式计算与系统的技术进步.因此,分布式计算与系统一直是国内外研究的热点,在基础科学理论、关键技术方法、新兴系统及应用等方面都产生了诸多创新性和突破性的成果.针对国内分布式计算与系统领域的发展,中国计算机学会分布式计算与系统专委会每年都会召开全国开放式分布与并行计算学术年会(DPC
期刊
传统神经网络具有过度依赖硬件资源和对应用设备性能要求较高的缺点,因此无法部署于算力有限的边缘设备和移动终端上,人工智能技术的应用发展在一定程度上受到了限制.然而,随着科技时代的到来,受用户需求影响的人工智能迫切需要在便携式设备上能成功进行如计算机视觉应用等方面的操作.为此,以近几年流行的轻量化神经网络中的卷积部分为研究对象,详细比对了各类轻量化模型中卷积构成方式的区别,并针对卷积设计的主要思路和特点进行了较为详细的阐述.首先,通过引入轻量化神经网络的概念,介绍了轻量化神经网络的发展现状和网络中卷积方面所面