【摘 要】
:
图像作为人类视觉感知的重要途径,是人工智能时代海量数据的主要来源,因此,如何对海量的图像数据进行智能化理解是当前图像理解领域需要解决的主要问题。近年来,深度学习在图像分类和图像描述等图像理解研究与应用中取得了显著的研究成果,但是,具有复杂语义的图像理解,例如层级图像分类和视觉叙事等任务,仍然存在很大的探索空间。层次图像分类和视觉叙事任务需要对图像本身高层复杂语义进行理解,它们相对于当前流行的图像分
论文部分内容阅读
图像作为人类视觉感知的重要途径,是人工智能时代海量数据的主要来源,因此,如何对海量的图像数据进行智能化理解是当前图像理解领域需要解决的主要问题。近年来,深度学习在图像分类和图像描述等图像理解研究与应用中取得了显著的研究成果,但是,具有复杂语义的图像理解,例如层级图像分类和视觉叙事等任务,仍然存在很大的探索空间。层次图像分类和视觉叙事任务需要对图像本身高层复杂语义进行理解,它们相对于当前流行的图像分类与图像描述任务显得更加复杂、也更具挑战性,有着很强的理论研究与应用价值。层级图像分类问题中,由于层级图像中的类别之间具有严格的层级关系,且精细级类别之间相似度较高,准确识别这些层级类别对计算机仍然是个难点问题。视觉叙事旨在为连续的图像生成连贯的和富有表现力的故事性描述,它不仅需要对复杂场景以及图像之间的关联关系进行识别,更需要对抽象语义进行理解,这给当前计算机图像理解技术提出了更高的挑战。基于以上问题,本文在对深度学习相关理论研究基础上,采用关注机制分别从双关注、局部特征关注-全局语义以及多层级关注这三个方面对于图像理解中的层级图像分类和视觉叙事问题展开了深入研究。论文的主要研究工作如下:(1)提出了一种基于双关注机制的层级图像分类模型。针对现有层级图像分类方法多用于固定层级的识别,本文构建了一种基于CNN-LSTM的通用识别模型DACL(dual-attention CNN-LSTM),引入空间特征维度和空间语义维度的双关注模块,用于同时解决固定和可变层级分类问题。该模型通过空间特征关注机制学习不同类别对应的更具判别性的细粒度特征,并且通过空间语义关注机制对各类别间的相关性进行建模,从而增强模型关键信息的判别能力,有效提升模型的泛化性。本文使用CIFAR10、CIFAR100和外观专利图像数据集对所提方法进行了验证,实验结果表明了所提出的DACL方法在精准度和准确率方面相对其他现有的层级图像分类方法的优越性。(2)提出了一种融合局部特征关注机制和全局上下文语义的视觉叙事方法。本方法采用一种端到端的长短时记忆网络模块并行方法实现视觉叙事,解决了传统的视觉叙事方法采用串行长短时序记忆网络模块,网络参数过多,计算量大,过度耗费网络资源的缺陷。本文在考虑全局上下文语义的条件下结合局部特征关注机制,将序列图像信息作为全局图像特征,通过多层感知器学习序列图像的故事主题信息,同时将单张图像信息作为局部特征并引入关注机制,得到文本对应的特征关注图,分别实现对图像与图像间、图像与文本间依赖关系的构建。本方法有效解决了传统长短时记忆网络模块方法中因序列图像分开输入,只关注单图像与文本之间的关系,忽略了序列图像间关联关系存在的不足。本文的方法在两个公用图像数据集(DII和SIS)上进行了实验,实验结果显示本文的模型取得了良好的效果。(3)提出了一种基于层级关注机制的视觉叙事生成算法。本文利用BERT模型丰富的语义提取能力,构建了句子级和词语级两层长短时记忆网络模型,并引入句级与词级关注机制实现序列图像的故事性描述。该模型在底层首先对句级语义进行建模,关注每个图像与对应句子语义间的映射关系同时也关注图像与图像、句子与句子间的关联关系,负责提取每个图像的高层主题信息,再在第二层基于该主题对词级语义进行建模,重点关注每个图像与该句文本中的每个单词的映射关系,负责学习每个单词对应的图像特征信息。本方法能够有效改进传统视觉叙事方法生成的句子语法问题多,表达方式过于简单的缺点。实验结果表明,在自动评估指标BLEU和CIDEr下,本文的模型优于大多数方法,同时,本文的方法在人类评估中的各项指标中表现良好。综上所述,本文基于关注机制的图像理解中的若干关键问题,结合最新深度学习理论方法展开研究,其内容是计算机视觉与自然语言处理交叉学科的创新研究,对解决现实中的应用问题有着十分重要的研究意义。
其他文献
针对无人机在无线通信网络场景中的保密通信与飞行过程中保证安全节能问题,提出一种多目标优化设计方案。基于无人机通信模型、无人机能耗模型和环境限制模型构建无人机调度和航迹规划问题(USPOP)的多目标优化模型,以无人机无线通信的平均保密率、无人机悬停能耗和无人机飞行能耗三个目标为优化目标进行优化,并通过改进的第三代非支配排序遗传算法对问题进行求解。仿真结果表明,提出的改进算法能有效解决构建的优化问题,
武器-目标分配(WTA)与空地导弹的接力制导规划是远距离空地多目标攻击中亟需解决的难题,具有参数复杂、约束多、非线性强等特点。为此,建立多目标、多约束武器-目标分配与制导序列优化模型,优化目标为目标综合生存概率最小和总用弹量最少,约束条件涉及攻击机导弹配置、导弹毁伤能力、目标毁伤要求、制导站性能。对带精英策略的非支配排序遗传算法(NSGA-II)进行改进,提出基于双序列编码的多种群NSGA-II(
在科技水平不断提高的背景下,“互联网+”的模式已经在各个领域得到普及,在初中教学阶段,全息视角下的问题式教学也逐渐揭开了帷幕,对于“互联网+教育”模式的讨论正在激烈进行中。为满足学生在新时代课堂下的学习需求,如何切入全息课堂式教学,以及如何科学开展问题式教学成为对初中教育工作者的新考验。本文将针对全息视角下初中英语学科问题式教学进行讨论和研究。
当前,劳动教育成为热议话题,如何高质量地开展劳动教育,促进个体全面和谐发展成为新的课题。卢梭从自然主义教育理念出发,倡导劳动教育,详细地阐述了劳动教育的意义价值,赋予了劳动教育丰富的内涵。重视发挥劳动教育的自然性和育人性。注重劳育的自然渗透,尊重个体的兴趣诉求,将劳动价值与时代变革相关联,提倡五育融合发展,使劳动教育的发展更加完善。
目的:研究缓解期双相情感障碍患者的睡眠节律特征,观察其昼夜类型、昼夜节律睡眠-觉醒障碍的类型,探索缓解期双相情感障碍患者昼夜节律睡眠-觉醒障碍的影响因素。方法:本研究共纳入98名受试者,包括健康对照组,双相Ⅰ型障碍患者组,双相Ⅱ型障碍患者组。结果:1.三组间年龄、婚姻、职业、居住地、月收入、BMI差异有统计学意义(P<0.01)。2.三组间MEQ总分差异有统计学意义(P<0.01),三组间昼夜类型
艺术史家肯尼斯·克拉克曾经指出,达·芬奇绘画中的某些部分“与(欧洲)古典绘画之间存在着巨大差别”,却与“伟大的中国绘画”如陈容的《九龙图卷》有本质上的相似,因为“只有在东方艺术中,我们才能找到类似的用程式将自然力量与趋势化为可见的线性曲线的方式”。事实上,除了世界地图和绳结装饰之外,达·芬奇作品中还流露出对于“龙”“墙”“云”“风暴”与“洪水”等一系列极具东方神韵的艺术母题或意象异乎寻常的兴趣,那
本数据集是一个面向红外时敏目标检测跟踪应用,以车辆为探测目标,以地面场景为探测背景的图像序列数据集。本数据集共计21750帧图像,89174个目标,组成了87段视频序列、393段目标轨迹。数据集的每帧图像对应一个标注文件,标注文件标记了图像中每个感兴趣时敏目标的ID号及其位置信息,可为红外时敏目标检测跟踪、红外时敏目标特性等研究提供基础数据。
波浪是海洋动力环境演变的重要环节,对海气界面动量、热量及物质通量具有重要的影响,也是海洋上混合层与跃层形成的关键因素。加勒比海位于大西洋海域,岛屿众多,西部与西北部是墨西哥的尤卡坦半岛和中美洲诸国,北部是大安的列斯群岛,东部小安的列斯群岛,南部是南美洲。这种特殊的地形造成加勒比海域波浪的分布受岛屿的影响很大,目前对该海域波浪的分布特征分析和预报研究还几乎是空白,鉴于此,本文将开展如下研究:1)首先
<正>快捷酒店与其他行业不同,它是全天24小时对外营业,随着顾客需求的不同,酒店服务呈现多样化的特征,顾客对酒店的印象及满意度会直接影响酒店的效益。酒店服务的差异性、多样化及无形性给酒店经营管理带来了很大难度,因此,完善与加强酒店内部控制是酒店经营的重点,是其实现经营目标、增强竞争力的有效措施。