基于卷积循环混合模型的图像描述

来源 :北京工业大学 | 被引量 : 5次 | 上传用户:sinohydromusc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是人工智能领域一个重要的问题,在无人驾驶、虚拟现实、机器视觉等方面具有广泛的应用。通过图像描述,我们期望机器视觉中对图像的处理都可以转化为对文本语言的处理,以利于更好的理解视觉场景。如何对给定图像的内容进行准确、全面的描述,并且符合人眼视觉观察的内容,是图像描述研究中的一个关键问题,具有重要的理论意义和应用价值。然而,由于图像描述不仅需要计算机视觉、图像处理方面的知识,同时还需要自然语言处理的相关知识,这种复杂的知识背景要求使得图像描述成为一个非常困难且具有挑战性的研究问题,让很多研究者望而却步,但是其广泛的应用前景也吸引了很多的学者。本文针对图像描述相关问题开展研究,主要研究内容包括:1)针对自动生成图像文本描述问题,本文首先研究了基于卷积循环混合模型的图像描述方法整体模型结构。在图像描述过程中,首先在高维空间中对图像和文本进行表示,然后在高维空间中建立图像和文本的匹配关系。整个模型由三个模块组成:第一个模块是图像编码,用卷积神经网络的图像特征提取及编码;第二个模块是句子编码,将词语映射到高维向量空间;第三个模块是句子生成,用长短时记忆网络模型对高维空间中的图像和文本建立匹配关系,生成句子描述。2)针对基于卷积循环混合模型的图像描述中词向量初始化问题,研究了句子编码过程,提出了在句子编码阶段用word2vec训练句子词向量的新方法。Word2vec是一个神经网络模型,相比较随机生成词向量方法,word2vec训练的词向量可以使得词语之间的关系在词向量中也能体现出来,相近语义的词语所对应的词向量之间的距离也更近,有利于提高句子生成质量。3)针对基于卷积循环混合模型的图像描述句子生成阶段输入向量预处理问题,研究了句子生成模型,提出了用带普通隐含层的长短时记忆网络模型的新方法。由于输入向量是未知参数需要学习,新方法中新增加的隐含层可以对输入向量进行预处理。在该模型中,词向量先经过一个普通的隐含层,然后再进入长短时记忆网络的细胞单元进行循环运算,这种改变可以对训练数据进行很好的预处理。该模型所用到的学习算法和长短时记忆网络类似,该模型新加的普通隐含层相当于之前网络的输入,该部分可以用BPTT算法,从新加隐含层到输入层可以用普通反向传播算法进行参数学习。通过在Flickr8K数据集上进行测试,实验结果表明,在原始的长短时记忆网络中引入一层新的普通隐含层或者采用word2vec编码,都可以有效提高图像描述文本的准确性,取得更好的图像文本描述效果。
其他文献
目的观察水蛭粉对颅内动脉重度狭窄或闭塞致脑梗死患者脑血管侧支循环代偿的临床效果,了解水蛭粉在脑梗死患者脑血管中的作用机理。方法 55例颅内动脉重度狭窄或闭塞致脑梗死
在辽东沿海地区,海蜇是重要的经济养殖种类。海蜇属腔肠动物门、钵水母纲、根口水母目、根口水母科、海蜇属,在水的中上层生活,以小型浮游动物为饵料,适宜生长温度为18-25℃。海
教师用嗓是其职业性决定的。嗓音是不可再生资源,合理的调度、使用是预防嗓病的关键所在。从教师用嗓活动、用嗓卫生、用嗓习惯以及合理的布置声音、分配声音等方面进行分析与
农村教育是现在中国教育的薄弱环节,数学教育在农村教学中更应该加强,面对越来越多的学困生,我们数学教师应该做好他们的教育教学工作,为我们祖国输送合格的建设者.本文从数
2015年我国全面实施《公共建筑节能设计标准》GB50189-2015,由此取代了西安市执行的《西安市公共建筑节能设计标准》。西安市在建筑节能设计标准编制和实施方面的工作处于全
近十年来,我国企业发展步伐之大、速度之快前所未有,市场经济的蓬勃发展让财务管理在企业中发挥的作用日益凸显。将精细化财务管理贯穿于企业工作的各个方面,实现企业资源科
对于长寿命发动机,传统的航空发动机耐久性试验方法存在经济性差、试验周期长的问题。鉴于此,提出一种适用于较高温度裕度的航空发动机整机耐久性试车方法,阐述了编制试车谱的具
岩棉薄抹灰外保温系统作为防火A级的外保温系统在建筑中的应用越来越广泛,然而岩棉热湿物理性能与传统保温材料又有着较为明显的差异,岩棉系统热湿耦合作用下的温湿迁移及系统
师专学生课外阅读调查报告李秀娥(河南南阳师专图书馆,南阳,473061)绿茵读书会是我校学生自发组织的一个群体性读书团体。现有96级文理科会员237名。它的宗旨是通过种种读书活动,提高会员的自
伴随新中国70年波澜壮阔的发展历程,我国舞台艺术事业在探索中前进、实践中发展。特别是党的十八大以来,习近平总书记就文艺工作发表一系列重要论述,提出一系列新理念新思想新论
学位