基于深度学习的图像和视频描述

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:wangxq198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的大数据时代,手机和电脑等智能产品已经成为人们日常生活中不可或缺的物品,人们利用它们进行学习、娱乐和了解世界。在这样的背景下,图像和视频数据得到了快速的增长,因此如何利用计算机对图像和视频进行快速并有效的搜索以及利用变得至关重要。对于人类而言,对一幅图像或一个视频进行描述是极其简单的,但海量的图像和视频数据都通过人工来处理是不理想的。因此,如何利用计算机让其像人类一样对图像和视频进行自然语言描述引起了人们的兴趣。图像和视频描述研究结合了自然语言处理与计算机视觉领域的关键技术,具有广阔的应用前景。图像和视频描述能够帮助人们快速检索到需要的信息,能进行人机交互,也可以帮助视力有障碍的人群了解图像和视频内容等。早期的图像和视频描述方法主要是基于检索和模板的,虽然简单但效果却不理想。现如今,由于深度学习在计算机视觉和自然语言处理方面取得的巨大成就,越来越多的人们开始研究基于深度学习的图像和视频描述方法。近几年里,图像和视频描述方法常利用卷积神经网络来提取图像或视频特征,利用循环神经网络来生成自然描述语句,即编码器—解码器结构。本文主要对基于深度学习的图像和视频描述方法进行了研究。首先,本文针对图像描述中图像特征和描述语句的关联度不高问题进行了分析和研究,设计了一个新的注意力机制,能够更好的关联图像特征和词特征。本文图像描述模型在编码部分采用两种编码器,分别是VGG19和RESNET101,解码器使用长短期记忆网络,并引入注意力机制。最后在图像描述公共数据集中进行实验,通过实验证明了新注意力机制的可行性和有效性,验证了基于本文设计的注意力机制的图像描述模型的优越性能。其次,本文从图像描述扩展到视频描述中,因为视频更加的复杂和多样,视频描述的研究也比图像描述困难得多。本文视频描述模型框架在编码器部分采用较深的卷积神经网络Inception V4,在解码器部分,利用长短期记忆网络来生成视频的自然描述语句。同时,将图像描述中设计的注意力机制应用到视频描述中,并对该注意力机制进一步改进,得到基于扩张卷积的注意力机制。该注意力机制通过扩张卷积增加了感受野而没有提高网络模型的参数量,能更好的关联视频帧信息和描述语句信息。最后,在视频描述公共数据集上进行实验,通过评价指标分数的提升和对视频有效的自然描述语句证明了本文基于扩张卷积的注意力机制视频描述模型的有效性。最后,由于之前的视频描述模型只考虑了正向流,即从视频到自然描述语句,而没有利用语句到视频的信息。为了使描述语句能够和输入视频中的内容保持一致性,将重建机制引入到视频描述模型中。重建机制可以利用解码器生成的描述语句来再现视频帧特征,然后通过将该重建特征与原先经过编码器提取的视频特征进行对比,进一步优化视频描述模型的性能。采用不同的深度较深的卷积神经网络作为编码器,在数据集上进行大量的实验,通过实验结果证明,引入重建机制的视频描述模型优于较多数主流的方法。
其他文献
随着国家科学技术的快速进步,电子信息产业正在迅速崛起。其中电子元器件行业作为电子信息产业的重要组成部分,是关系国家社会与经济全面发展的基础性产业之一。在国家信息化和工业化深度融合趋势的推动下,电子元器件行业的地位已经从电子信息产业的重要基础,提升至整个工业领域的基础。电子元器件行业不仅是技术密集型行业,由于其对研发能力和精密原材料的要求较高,所以该行业对资金的需求量也较大。大量的融资需求就要求企业
资本结构一直以来都是研究的热点,但与资本结构有关的研究几乎都是以西方资本结构理论为基础,分国家、分行业进行实证分析。事实上,马克思在资本结构方面也有相关论述,本文便是基于马克思资本结构相关理论,构建指标评价体系,通过实证来分析我国酒类上市公司资本结构对其经营绩效的影响,意在为提高我国酒类上市公司经营绩效提出针对性建议。本文的资本结构从资本有机构成和融资结构两个维度衡量:资本有机构成表示预付资本中不
现代主义以后,建筑技术的飞跃使结构与建筑构成逐渐脱离。从根植于透明性概念的知觉层面切入,通过对"工学的结构"与"建筑的结构"真实性有无的四种情况的比较,探索建筑中结构的视觉表现,并为当代建筑师与结构师的协作提供了启示。
<正>"透明"(Transparency)一词对于建筑或建筑学而言,有着不同寻常的意义。正如柯林·罗(Colin Rowe,1920—1998,建筑评论家)在《透明性》(Transparency,Colin Rowe, Robert Slutzky,1968)一书中所指出的那样,较之于利用物质原本的透明属性,比如玻璃材质来表达的"物理透明"(Literal Transparency=实的透明),那
期刊
资本结构是现代公司治理的基础,一方面,资本结构会对公司的价值与收益产生影响,另一方面,资本结构也是证券公司抵御风险的重要因素之一。我国证券业发展至今的30多年里,发展迅速。截止2020年底,我国共有证券公司136家,其中48家在沪、深证券交易所上市。当前证券公司已经成为中国金融体系和国民经济系统中重要的参与者和组成部分。受疫情影响,世界经济低迷,对于金融领域的证券公司而言挑战越来越大。另外虽然我国
管理模式、核心能力及战略计划是影响国家实验室发展的三项关键要素。基于对美国能源部、国土安全部和航空航天局及下属国家实验室最新资料和数据的挖掘发现:在管理模式方面,美国国家实验室属于垂直式矩阵管理体制,多数关键实验室直接隶属于政府部门,严格实行实验室主任负责制。在核心能力方面,实验室整体上规模较大,质量较高,人员种类配备合理,学科范围涵盖广泛;一般都具有强大的自主研发的大型科研装置及科研设施;财政经
美国联邦政府资助科学发展的基本模式包括以国家实验室系统为主的集中管理和资助模式,和以科学基金为主的自由探索科学研究资助模式。国家实验室系统是联邦政府资助科学的主要渠道,国家实验室以任务导向研究为主,服务国家需求为目的。大部分国家实验室采用“政府所有、合同运营”治理模式,主要涉及联邦主管机构、国家实验室和合同承包商三方主体间关系。国家实验室的管理制度是围绕联邦主管部门的监管要求及研究任务开展的需求进
以粮食发酵与食品生物制造国家工程研究中心专业特色为例,探索研究生思政教育新思路,发挥科研团队实验技术人员的岗位优势和和“传、帮、带”作用,把思政教育导入日常教育;通过引入学科经典案例、传递正确价值观、组织技能知识分享会、传播时政正能量、强化自身社会责任感和发挥榜样的力量,从而实现研究生思政教育目的;一点一滴潜移默化培养学生的思维和观念,帮助研究生们塑造坚定忠诚的爱国精神、持续奋斗的人生观和崇高健全