图像描述文本自动生成方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:jycysn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用文本句子自动地描述图像已经成为了近年来的一个研究热点,尤其是深度学习研究的深入,大大推动了图像描述文本自动生成研究的发展。其中使用最多的技术是长短期记忆网络(LSTM),其不但能够有效的记忆长期和短期信息,而且还能够解决梯度消失和梯度爆炸问题。虽然目前的相关研究在图像描述自动生成领域取得了不错的成果,但是仍有一些不足之处需要改进:?训练过程,如何根据图像描述进行双向的学习训练,充分地学习图像描述的上下文信息。?取样过程中,如何避免单纯的把上一个时刻的预测值作为当前时刻的输入值,减小累积误差,避免导致最终错误的取样结果。?如何选取更好的训练模型生成高质量的文本描述。针对图像描述自动生成领域中存在的问题,本文提出了一种基于计划取样的双向长短期记忆网络的图像描述自动生成方法(BLSTM-S)。主要内容为:?提出了一种双向的长短期记忆网络。正如本文知道的,在英语句子的选词填空中,空格处单词的确定不但与句子的上文信息有关,而且与句子的下文信息也有一定的关系。因此,双向的长短期记忆网络与单向的长短期记忆网络相比,不但能够学习图像描述的上文信息而且还能够学习图像描述的下文信息,从而能够更准确地生成图像的文本描述信息。?采用了一种基于计划取样的方法来取样单词。与之前单纯地以上一个时刻的输出值作为当前时刻的输入值的取样方法相比,计划取样过程中本文使用一种抛硬币的策略,随机决定是以概率?使用上一个时刻的输出值作为当前时刻的输入值,或以概率(1-?)使用上一个时刻的真实值作为当前时刻的输入值。能够解决训练过程和取样过程的不一致性,从而避免累积错误决策的出现。?本文利用集束搜索技术在每个时刻点选取K个候选项中概率最大的项作为输出值,可以产生更准确的描写信息。最后,为验证BLSTM-S模型的有效性和准确性,本文在Flickr8k数据集、Flickr30k数据集以及MSCOCO数据集上进行了大量的实验,实验结果表明BLSTM模型在Flickr8k、Flickr30k和MSCOCO数据集上的表现明显好于其他模型。
其他文献
目的探讨丙种球蛋白联合阿司匹林治疗川崎病患儿的临床疗效和安全性。方法选取2016年1月至2018年12月于我院就诊治疗的68例川崎病患儿作为研究对象,根据治疗方案的不同将其分
夏姑娘走了,漂亮的秋姑娘来了.秋姑娘飞到了果园里,给葡萄一条纱裙,葡萄穿上纱裙,个个都变得晶莹剔透;
棉花作为重要的经济作物,新品种的选育和应用对于促进棉花生产至关重要。通过转基因技术将外源基因转化棉花,是棉花育种的新手段。尤其是抗逆、抗除草剂、抗虫、抗病和提高棉
摘要:旨在研究RNAi沉默STAT3基因对人大细胞肺癌NCI-H460细胞增殖的影响。针对STAT3基因mRNA设计合成5条短发夹DNA,构建重组SiRNA-ST3质粒(命名为SiRNA-ST3-1,2,3,4,N)。用重组质粒分
目的探讨鼠神经生长因子联合抗癫痫药物治疗小儿难治性癫痫的临床疗效。方法选取2016年1月至2017年10月我院收治的146例小儿难治性癫痫患者作为研究对象,根据随机数字表达法
金融海啸,不少人一夜之间失去很多资产财富,于是奥斯卡大奖片《贫民富翁》备受追捧。与此同时,一位“中国版贫民富翁”林A,也成为最近网络关注的人物。我们几经周折了解到,林A是一
2015年2月1日出台的中央1号文件明确提出,要加快发展草食畜牧业,开展粮改饲和种养结合模式试点。同年9月1日,农业部在太原召开粮改饲发展草食畜牧业试点工作部署会,农业部总
【作文欢乐行】 在我们成长的路上,洒满了父母的叮咛,也伴随着老师的谆谆教诲;在成长的过程中,我们历经了许多故事、参加了许多的活动……回首经历,你一定有许多切身的体验,也一定
本试验旨在研究在双翅目昆虫嚣张期,双翅目昆虫侵袭对荷斯坦奶牛内分泌及免疫力的影响。试验选取9头健康荷斯坦奶牛,采用酶联免疫吸附(ELISA)法对奶牛内分泌激素进行测定;采用流
看完电视,我和妈妈都有点饿。吃点什么呢?我们想了想,不约而同地说就吃煎鸡蛋吧!于是,我和妈妈开始忙活起来。