基于深度学习的自然图像语义描述模型研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lucasyvette
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,随着待处理的数据的量级不断增加以及计算机在硬件计算能力上的突破,深度学习技术在此基础上蓬勃发展。图像语义描述是涉及到计算机视觉和自然语言处理的混合领域,其研究的价值在视障人员的辅助生活、图文转换、标题自动生成、以及机器智能化等方面都有体现。传统的基于模板和基于检索的方法都存在描述内容错误、描述句式单调、鲁棒性差等特点。结合机器翻译中的编码-解码结构以及深度神经网络的使用,使得图像语义描述任务相较于传统方法有了很大的提升,但是仍然存在着编码-解码过程不充分,解码过程中视觉信息丢失,细节信息关注不够以及模型训练目标和评价标准不统一等问题。针对以上问题,本文以基于深度学习的编码-解码结构作为基础,对图像语义描述算法模型进行了研究和探索,工作的主要内容和研究重点如下:1.针对输入的图像视觉信息在解码过程中丢失或者不能动态调整的问题,使用了引导解码网络来连接编码和解码部分,使得编码信息能在每一时刻指导解码,同时自动调整解码信息,实现了端到端的训练过程。为了使编码-解码过程的中对信息的提取和解析尽量充分,分别选用了稠密卷积网络(Dense Net)和多示例学习(MIL)的方法作为图像编码器,嵌套长短时记忆网络(NLSTM)作为解码器。通过实验表明,该初级模型性能优于部分流行模型。2.引入了注意力机制来对细节信息进行聚焦,构建了双层解码结构,使得模型在细节描述和语义丰富度上有了进一步的提高。同时,深度强化学习的模型结构和优化方法,通过直接优化同一套评价指标对模型进行训练,解决了训练和评价标准不一致的问题。最终在MS COCO和Flickr 30k数据集上对模型进行了训练和测试,结果显示模型在BLEU、METEOR、CIDEr等指标上相比于目前的流行模型都分别有了近0.02、0.03、0.08的提升。
其他文献
随着物联网和5G通信的迅猛发展,移动计算领域逐渐从传统的集中式云计算向边缘计算转变。和传统的云计算不同,边缘计算是一种新兴技术,通过将移动计算,网络控制和存储迁移到网
Tours网络是一种具备多种优良特性的全对称封闭式拓扑结构,比如数据包可选择多种路径进行路由,并且结构简单可拓展性强等优点,因此也被广泛应用在商用系统中。Oblivious路由
随着工业4.0的到来,市场上对于电机的需求越来越大,电机也向着小型化发展,定子是电机的主要组成部分,定子绕组质量的高低在很大程度上影响了电机的质量和寿命。目前定子绕组
随着全球导航系统的逐步发展完善,多系统间组合定位逐渐兴起,多导航系统组合导航定位的需求逐渐增加,多系统选星算法的研究已不容忽视。本文基于对已有四大卫星导航系统原理阐述,理论分析GPS、BDS和GALILEO三系统间具有更好的兼容性,最终决定针对GPS/BDS/GALILEO三模情况下多系统选星算法进行研究。文章首先对卫星导航定位理论进行阐述,并由此引出GDOP值对卫星选星的影响关系。接着讨论了最佳
社区问答(CQA)系统向用户提供一个知识平台,用户可以通过该平台直接获取所需求的知识,而具有领域知识的专家可以通过该平台高效地分享自己的学识。社区问答系统由于其具有的
随着海南国际旅游岛建设的提出,村落旅游迅速发展,不仅促进了新农村建设,也满足了人们回归自然的心愿,村落旅游逐渐成为海南乡村聚落发展的一大趋势。然而村落旅游这一新的生
随着城市化进程的加快,城市热岛和雨岛效应的影响逐渐增大,城市区域的降水频率和降水量也相应增加。此外,原有的透水面逐渐转化为不透水面,下渗过程遭到阻断,地表蓄滞作用降
近年来,我国钢铁工业发展迅速,钢铁产量规模位居世界前列。因为钢铁被广泛应用于社会的各个领域,例如桥梁、高楼、船舶、机械、铁路以及航空等,因此,钢材的质量会直接影响到
无线传感器网络(Wireless Sensor Network,WSN)是物联网的关键技术,在很多领域都有着广泛的应用。WSN的特点是传感器节点多、网络规模大,通常部署在暴露的外部环境中,因此很
利用微纳结构对光波幅值、位相、偏振等一种或多种参数进行空间调制和变换,可产生选择性反射以及光变色效果,在防伪、加密等领域引起了广泛的关注。然而,目前基于微纳结构的反射型彩色滤光研究相对较少,且现有报道的反射型滤光片效率较低;此外,受目前现有制备工艺的限制,基于微纳米结构的彩色滤光片幅面小,需借助显微镜观察其颜色图案。为获得具有较高光能利用率的偏振变色滤波器件,并实现其大面积像素化光变色图案的快速制