基于深度学习的计算机视觉图像描述研究

来源 :北京印刷学院 | 被引量 : 0次 | 上传用户:likeren1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务是对图片通过计算机转化成自然语言的技术研究,换句话说,是对图片文字化的解释技术,这是一项从视觉到文本的交叉综合性研究课题,它对人类在人工智能的发展领域上具有十分重要的意义。传统的基于检索的方式与基于模板的方式,所形成的描述模型产生的语句都具有不灵活、不准确、有局限性等问题。但是,基于深度学习的研究方法所构建的模型生成的语句,则可以很好地解决上述问题,从而也越来越受科研人员的青睐。虽然,基于深度学习训练的描述模型,相比前面两种方式有着许多优点,并克服了其中可能存在的困难,但目前的图像描述方法仍然存在着训练速度慢、对图片相关信息提取不够全面、以及产生的表达语句不自然等问题。针对这些问题,我们对优化图像描述模型的研究方法进行了改进。本论文所做的研究内容如下:(1)我们提出了基于ResNeXt-101网络和SE block注意力机制的图像描述生成方式。在编码部分,我们采用Res Ne Xt-101网络结合SE模块和目标检测器Faster R-CNN构建编码器模型来提取输入图像中的目标区域以及图像特征,从而有效解决了模型训练速度较慢的问题。(2)提出一个基于双层长短期记忆网络,及双注意力机制的描述模型生成方式。研究表明,在解码器部分采用双层LSTM并融合多种注意力机制的方法可以提升语言模型生成图像描述语句的性能。在图像特征提取阶段,我们通过以上第一部分的研究内容来提取特征,使模型从最开始就关注到图像的关键部分。为了提取到图像中更完整的信息,我们采用的是视觉注意力和语义注意力来构建注意力机制的方法,目的是为了使我们生成的描述语句更加精确丰富。最后,为了解决模型在训练和测试时出现不匹配的问题,采用强化学习方法对描述模型进行优化,利用贪婪算法得到模型生成的语句在指标CIDEr上的得分,将得分作为奖励对所构建的模型进行优化。综上,我们对基于深度学习的方法的描述模型算法进行了分析与改进。实验结果显示,我们提出的模型算法与传统的相比,可以更好的提升描述模型性能,并生成更为丰富精确的描述语句。
其他文献
乡村振兴战略为农业农村提供了新的发展机遇,其中提出的特色保护类村庄类型,为富有地域文化特色的村庄指明了新的发展方向——乡村旅游。少数民族村寨作为特色保护类村庄中的子类别,开展旅游项目之后,对增加村民经济收入,拓宽就业岗位,改善基础设施建设等诸多方面有着重大现实意义。但是,我国目前乡村旅游体系尚处于探索阶段,在实践过程中出现了生态恶化、景区趋同化等问题,因此在2022年中央一号文件中就明确提出“实施
学位
传统的多色胶印机墨色控制方法通常是基于单一的计算机系统,在实现远程控制和集中管理方面存在诸多不便。基于云-边-端的新的系统架构,研制新型的多色胶印机墨量控制技术对于进一步提升国产印刷装备的技术水平具有重要意义。本文设计了一种多色胶印机墨色云控系统,并对其关键技术进行研究。本系统主要分为墨量控制终端、图像采集设备和边缘计算平台三个部分。基于云、边、端系统架构,终端层实现墨量控制和印品图像采集任务,边
学位
随着大型的预训练模型在自然语言处理中流行,一种“预训练-微调”的范式越来越多的应用在下游任务中,对一个预训练模型进行微调训练后就能取得不错的效果。预训练模型给科研工作带来巨大便利的同时,也朝着更大规模、更加普适的方向发展。同时,这也对使用模型的硬件环境提出了更高的要求,使得在一些边缘设备和计算能力受限的设备中训练或部署模型十分具有挑战性。并且在机器阅读理解任务中,获取大量标注的数据用于模型训练是十
学位
同色异谱特性在图像防伪和信息隐藏领域的应用具有防伪成本低、隐藏效果好、易检测和与其他防伪技术的高兼容性等优点,使得其成为印刷防伪领域内的研究热点。但该方法存在同色异谱信息隐藏效果单一、动态调整防伪信息可操作性低、防伪区域受限等问题,且在色彩复制过程中往往是基于经验主义的调参方法,缺乏可替代范围的数学依据,因此该方向的研究具有重要的实用价值。针对上述问题,本文提出基于大动态高精度同色异谱灰色成分替代
学位
农地,为民生之根、农业之本,不仅是农业生产中最重要的生产资料,也是农民赖以生存、发展的物质资本。从农地的“两权分离”到“三权分置”政策的实施,国家依据实际情况开辟出独具中国特色的农村土地制度改革道路,为“三农”的多方面发展提供强劲而有力的支撑。农地“三权分置”改革为农地所有权、承包权与经营权分别赋能,将农地经营权作为一项独立的权利,通过农地经营权的充分流动释放农地的经济价值,不仅为农地流转实践创新
学位
随着互联网普及率的逐年提升,网络成为青年群体获取健康信息的重要渠道。在中国青年总人口中,农村青年人口占比45%。关注农村青年健康问题是推进乡村振兴和健康中国战略的重要一环。本研究通过对湖北省枣阳市3个村子农村青年网络健康信息搜寻行为的调查发现,探究其特征及影响因素,有助于发现农村青年健康信息搜寻行为的规律,能够为政府和公共管理相关部门制定健康政策提供科学的理论依据,为医疗机构、健康网站提高健康信息
学位
高速公路建设是我国国土空间规划中的交通规划里的重要内容,也是用以指导各地区高质量发展,破除发展困境的基本手段之一。高速公路建设带来社会发展的同时,也会对土地利用功能产生重要影响,而土地利用功能是缓解人地矛盾,是实现土地可持续利用的重要内容,因此研究高速公路建设对土地利用功能的影响,并以此为基础,指导土地可持续利用,就兼具了实践价值和理论意义。笔者在总结前人研究的基础上,以“高速公路—生产要素—土地
学位
改革开放后,我国进入城镇化与工业化快速发展时期,在有限的国土空间当中人与地、开发与保护、发展与稳定之间的矛盾与冲突日益尖锐。为统筹我国国土空间内各类开发保护与建设活动、推进绿色可持续的高质量发展,中共中央、国务院建立了国土空间规划体系,并在一系列中央文件中明确提出科学布局生态空间、农业空间与城建空间需以资源环境承载能力和国土空间适宜性评价(“双评价”)为基础。由此可见,国土空间适宜性评价(适宜性评
学位
随着计算机网络通信的飞速发展,在没有严格的网络监管体系下会引发多种损害社会利益的严重问题。数字水印技术逐渐成为信息防伪的有效手段,但目前成熟的水印算法不足以抵抗畸变攻击。为了使水印能够抵抗畸变攻击,本文提出了基于图像特征分块的全息水印嵌入提取算法。首先依据图像特征将载体图像分成不同的子图像特征块,提取每个子图像特征块的SIFT特征点,依据特征点分布位置与稳定性能对载体特征块进行筛选,最终选取所有适
学位
利用半色调单网点(简称印刷量子点)点阵图像实现信息隐藏和印刷信息防伪具有信息记录容量大、隐藏效果好和可满铺等优点,成为印刷信息防伪领域内的研究热点问题。但该方法在信息打印记录过程中,因不可避免地存在漏印、偏移、网点扩大、飞墨等缺陷问题,以及识读设备受光照、拍摄动作抖动等因素影响,往往存在比较严重的误码问题,因此对其进行研究具有重要的应用价值。针对以上问题,本文提出基于多重组合编解码的印刷量子点信息
学位