跨模态相关论文
行人检测是模式识别和目标检测的一个具体研究领域,是城市安防和辅助驾驶中重要的研究内容。通常的行人检测任务所面临的场景往往......
多模态医学图像能够有效融合解剖图像和功能图像的信息,将人体内部的功能、解剖等多方面信息反映在同一幅图像上,在临床上有十分重要......
期刊
脑图谱是研究脑结构和功能及脑疾病的基础,不同类型的脑图谱从不同角度提供了脑的组织模式或连接信息。随着图像采集和生物检测技......
交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一,针对其检索模态单一的问题,以其数据中图文描述为研究对象,改进提出......
在当前大数据时代,大量的医学影像没有得到有效利用。而在医疗、教育以及科研等领域却亟需大量经过标注的数据,因此需要一种技术对......
行人重识别,目的是在不同摄像头中检索包含目标人物的图像。该任务是计算机视觉领域的一个研究热点,在智能安防、客户识别等方面具......
提出了一个基于图像识别的跨模态实体链接模型。首先,利用人机交互的图像目标截取模块实现图像目标指代,支持多目标图像的输入,将复杂......
随着网络普及,新疆地区越来越多用户开始从互联网中获取信息。由于区域特殊性,网络中信息传播与获取使用户更加便捷的获取信息,但......
随着互联网和社交媒体的发展,多媒体数据呈现爆发式增长。特别是在新闻领域中,人们从社交网络中获取到大量的多媒体数据,包括文本......
随着人们对于自身安全以及公共安全的日益重视,视频监控系统遍布世界各地。海量的视频数据得以保存,如何快速地且智能化地分析和处......
学位
随着网络的普及以及大规模食物数据的涌现,为了有效获得所需的食物信息,食物计算领域的跨模态菜谱检索得到了广泛关注。跨模态菜谱......
行人重识别(ReID)是计算机视觉领域的一个重要研究方向,主要解决跨摄像机、跨场景下的行人识别与检索问题,可广泛应用于安防监控和刑......
随着当今社会的不断发展,摄像头设备时时刻刻在记录和监督着社会的平稳发展。在目前备受关注的智慧城市中,智能监控也在智慧城市中......
视觉问答是一项属于计算机视觉和自然语言处理交叉领域的任务,它要求模型读取输入图像和相关的自然语言问题,并给出合理的答案。与......
视觉语言导航是一项集计算机视觉和自然语言处理于一体的跨模态任务。该任务要求模型能够对图像和自然语言两种不同格式的信息进行......
针对现有农作物病虫害检索模态较为单一问题,以17种常见的枸杞虫害图像和文本描述为研究对象,将跨模态检索引入枸杞虫害检索领域,......
图像生成一直是人工智能学科的重点研究领域之一。从2014年开始,由于生成对抗网络的出现,该领域进入了一个全新的发展阶段。图像生......
近年来随着互联网的快速发展,其所产生的文本、图片、音视频等模态的数据也成指数级增长,人们对于多模态数据的检索需求随之增长。......
基于大规模数据训练的深度学习算法已在多个任务上取得成功应用。然而,在诸如医疗、军事等特殊领域获取大规模类别均衡的数据十分......
随着科学技术的蓬勃发展,科技数据逐渐成为人们生活中不可或缺的一部分。用户在科技论文平台以及科技资讯网站查询相应的科技内容......
针对配电物联网配电终端安全监测数据多源化、高度异构的特征以及配电物联网管理平台安全信息易受网络攻击和威胁的问题,文章提出......
随着智能监控的发展,产生了大量的监控数据,通过人工去查看,效率很低且准确率难以保证,利用行人重识别的方法对监控数据分析可以克......
基于文本描述的图像生成任务是根据文本描述生成符合描述的图像的研究任务。这一颇具挑战性的研究任务因其潜在的应用价值受到了跨......
本文的研究目标是基于跨模态分析实现对隐式网络水军的检测,发现隐式网络水军新线索。提出了两种隐式网络水军检测算法,分别是:基......
行人重识别是智能安防领域一个重要的研究方向,其目的是利用查询图像去检索某个图像数据库中相关的图像,可以视为一种图像检索技术......
随着医疗行业信息化水平的不断提高,医学影像数据量日益膨胀,行业内普遍现状是对于这些具有多种模态的医学图像数据一直缺乏有效的......
文本到图像生成任务的目的是将文本中描述的语义关系,运用图像生成技术转化为语义相关的图像,在文字配图、用户画像、交互式创作等......
随着多媒体时代的到来,移动互联网的蓬勃发展,越来越多的人选择通过拍摄上传视频的方式来记录分享生活的点点滴滴。而视频内容识别......
近几年来,图像的超分辨率技术和跨模态技术不断发展,应用于各个领域。其中磁共振成像作为一种无辐射、扫描时间快并且具有多种模态......
唇语识别在日常生活中有着广阔的应用场景,例如在嘈杂的声学环境中辅助语音识别,方便聋哑人等残障人士进行交流,为黑白默片生成字......
随着互联网的发展,每天都有大量的多媒体文件产生,如何在海量数据中检索相关内容成为了科研人员重点关注的内容。传统的检索方法是......
传感器技术和移动设备的快速发展产生了大量的图像数据,这对于图像检索领域来讲是一个好的发展机遇。基于颜色、纹理、形状等浅层......
多标签的图像分类问题是计算机视觉与模式识别领域一个重要的课题。由于在现实世界中,诸如图像、视频、音乐、文档等对象通常均由......
近两年,5G时代的到来给人工智能行业带来了前所未有的机遇与挑战。行人再识别与目标跟踪作为计算机视觉中两个重要的组成部分,其在......
利用深度学习对图像中的行人进行再识别的研究工作已经取得了一定发展。将行人再识别技术应用在真实场景时,常常会遇到摄像视角变......
行人再识别是指对不同摄像机视角下的同一行人进行识别匹配的研究。该技术主要应用于智能视频监控系统中,在计算机视觉领域中具有......
深入理解大脑的结构和功能是本世纪最具挑战性的前沿科学问题之一。对人脑的各种功能进行不同尺度和不同层次的深入探索,不仅对诊......
随着互联网的快速发展使得网络中数据的数量急剧膨胀,这带来了珍贵的数据财富。但由于大多数的网络数据为冗余数据,不具有重大价值......
随着数据时代和信息时代的到来。信息和数据越来越成为社会经济发展和人们生活提高的重要推动力。而检索作为高效获取信息方法就显......
随着现代科技的飞速发展,社交媒体功能不断更新迭代,如Twitter,Facebook,微博等社交平台都支持用户发布多媒体信息。研究表明多数......
针对类内干扰影响基于个体人员特征目标跟踪算法的精确性和鲁棒性问题,分析当前跟踪算法在个体人员跟踪方面存在的不足,提出了利用......
以往的情感分类大多集中在单模态上,然而多模态的情感信息之间往往具有互补性,针对目前使用单模态做情感分类不能全面捕捉情感语义......
针对大数据下跨模态数据检索效率低下的问题,该论文深入研究了深度学习理论,采用了人工卷积神经网络模型和感知机模型,提出了一种......
针对目前跨模态哈希方法中存在的哈希码鲁棒性不足、量化误差较大的问题,提出一种重构约束的离散矩阵因式分解哈希算法。通过矩阵......