基于主题的图像描述生成技术研究与应用

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:YU168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述旨在为给定的图像生成自然语言描述,其联结着视觉与语言两个模态,涉及计算机视觉与自然语言处理等多方面的技术。现有图像描述模型大多只能生成单个句子的描述,但是,“一图值千字”,单个句子难以描述丰富的图像内容,本文提出基于主题的图像描述生成技术,通过主题监督生成多个描述句,具体工作内容如下。提出了一个基于主题的多句子图像描述生成模型。模型包括主题抽取与表示模块、基于图像的主题预测模块以及融入主题监督的自然语言生成模块三个部分。为了挖掘描述蕴含的主题信息,并将主题编码为向量,以便融入网络监督生成过程,本研究设计了主题抽取与表示模块。该模块基于潜在狄利克雷分布(LDA:Latent DirichletAllocation)主题模型进行主题挖掘。本文分别利用文本数据和图像-文本多模态数据进行了主题抽取,并基于词向量建立主题的向量表示。为避免描述的盲目生成,需要预先推断主题,本研究设计了基于图像的主题预测模块。以图像表示作为分类器的输入,以最小化预测分布与真实分布间的KL散度为目标,训练预测模块。实验表明,主题数为20时,分类器以95%的概率,至少准确预测一个主题。为了将主题的监督融入生成过程,设计了融入主题监督的自然语言生成模块。使用长短期记忆(LSTM:Long Short-Term Memory)神经网络作为解码器,解码器基于图像信息,通过融合不同的主题监督信息达到生成不同描述句子的能力。在flickr8k、flickr30k和COCO三个公开数据集上的实验结果表明,在按主题的分组评估中,该模型在BLEU、CIDEr等指标中均超过对比模型,同时该模型具有生成多个描述句子的能力,生成的多个描述句子具有与主题相关的多样性。本文基于所提出的多句子图像描述生成模型,设计并实现了一个图像描述自动生成演示系统。
其他文献
作为一种特殊的城市用地类型,高校用地开发强度历来严格受制于城市规划。加之,在现有土地资源有限的前提下,招生规模以及师资队伍的扩大对高校土地的集约利用提出了更加严苛的要
2010年PCT国际专利申请量为162,900件,同比增长4.8%。中国申请增长势头强劲,以56.2%的增幅超过韩国,跻身为PCT申请的第四大来源国。中兴、华为在申请量排名中分列第二位、第四位。除
玉露香梨是山西省农科院果树研究所以库尔勒香梨为母本、雪花梨为父本杂交育成的优质中熟梨新品种,有汁多、酥脆、含糖高、无公害等特点。玉露香梨荣获2008年北京奥运会指定
以'红颊'草莓为试验材料,研究电生功能水对其生长、产量和品质的影响,探索喷施强酸和强碱性电功能水进行草莓栽培的可行性。结果表明:与对照相比,电功能水促进了植株
晚清闽籍御医力钧深谙中医学气血脏腑阴阳和合理论精髓与寒温统一之理法,又能精研西医解剖生理学,为一名中西医兼通名家。力钧以气血营卫和血循环术语"通其可通"释虚损,认为
施马伦贝格病作为新发病已对欧洲的反刍动物养殖业造成了巨大的经济损失和影响。本文从病原特点、流行病学、症状与诊断等方面进行简述,重点收集了该病截至目前在欧洲地区的发
我国麝养殖是解决麝类野生种群保护和中医药麝香来源的关键环节,是极为重要的野生动物养殖业。通过调查得出,截至2011年全国养殖麝已达8400余头,主要分布于四川、陕西等省份;
水液压传动是一种最常用的海洋能能量转换方式。针对潮流能水轮机及其能量转换的特点,设计了一种动外壳式海水径向柱塞泵,研究了其静态性能;详细分析了关键摩擦副—滚动体与
目的探讨肤宁洗剂在临床治疗婴儿急性湿疹的优势。方法对我院收治的148例急性湿疹患儿进行回顾性分析,根据治疗方法不同分为观察组与对照组,其中观察组78例采用肤宁洗剂涂擦患
哈耶克单从制度层面上把社会主义归结为一种排除私有制,实行高度计划的经济体制,认为这种社会主义的认识论基础是建构理性主义,并且以自由主义价值观为标尺,断言社会主义必然