基于视觉注意力与主题模型的图像中文描述生成方法研究

来源 :武汉科技大学 | 被引量 : 10次 | 上传用户:ayin2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述文本的自动生成方法实现了图像到自然语言的跨模态转换,涉及到计算机视觉和自然语言处理两大领域,是人工智能领域最困难的研究课题之一。目前,在图像描述文本自动生成这一任务上,基于神经网络的NIC模型虽然取得了不错的结果,但仍存在一些问题,比如:模型生成的描述句与图像表达内容存在一定的偏差、生成的图像场景描述准确率低、语言单调等。此外,目前图像描述任务的语料集和方法大多是基于英文描述文本,设计更符合中文语言环境和语用的图像描述系统是必不可少的。针对以上问题,本文提出基于视觉注意力与主题模型的图像中文描述生成方法,具体工作内容如下。提出了基于视觉注意力的图像描述生成模型。虽然基于卷积神经网络和循环神经网络的编解码模型已成为解决图像描述生成问题的主流方法,但是过于简单的模型结构导致NIC模型生成的描述句与图像表达内容存在一定的偏差。针对这一问题,本文在NIC图像描述生成模型的基础上提出改进,以Inception_v3网络作为图像编码器,引入视觉注意力机制的双层LSTM网络作为句子解码器,并通过实验验证基于视觉注意力的图像描述生成模型在AIC-ICC中文图像描述数据集上的性能优于NIC模型。引入主题信息进一步优化模型,提出基于主题模型的图像描述生成模型。针对NIC模型和本文提出的基于视觉注意力的图像描述生成模型依然存在生成的图像场景描述准确率低、语言单调的问题,本文引入NMF主题模型提取图像隐含的主题信息,在解码过程中融合主题信息指导描述句生成,从而缓解这一问题。主题信息的表示可分为两种:主题概率向量和主题词向量。最后实验结果表明,在各项评测指标上,本文提出的基于主题模型的图像中文描述生成方法优于现有模型,而基于主题概率向量的图像中文描述生成模型优于基于主题词向量的图像中文描述生成模型,尤其在词汇丰富度上有较大幅度提升。实验的具体示例表明本文设计的模型效果较好,能够自动生成用词更为自然、句式更丰富的中文描述语句。
其他文献
1临床资料1.1一般资料1998~2003年共收治急性坏死性胰腺炎(ANP)患者35例.其中男性22例,女性13例.年龄20~57岁,平均41岁.按入院先后顺序分为大黄治疗组17例和对照组18例.
涿鹿之战是我国第一次有文字记载的大规模集团战役,影响深远,其产生的军事文化奠定我国古代军事文化的基调和特质,历史价值和军事价值突出。涿鹿之战中大规模集团部队的形成
<正>目的应用自动检测方法分析高频振荡的分布与癫痫患者手术预后间的相互关系,探索根据高频振荡分布精准定位癫痫致痫区的量化阈值,为应用高频振荡指导癫痫手术切除范围提供
会议
随着&#39;双一流&#39;建设的推进、国家标准的发布,我国高等院校的发展进入了新时期。在新形势下,公安院校应尽力完善高校教师岗位分类制度及教师评价机制,为从事教学、科研
目的:探讨功能训练对预防股骨干骨折患者股四头肌萎缩的影响。方法:将136例股骨干骨折患者按入院顺序分成功能锻炼组和对照组。对照组按股骨干骨折术后一般护理常规进行护理,功
随着科技日新月异的不断进步与发展很多新的词汇出现在我们面前,多媒体一个具有时代气息的词汇不仅仅代表一个时期更是一种新文化的诞生,多媒体技术结合计算机和视频媒介,它
首次记录了反式肉桂酸和反式邻香豆酸两种具有大π键电子结构的平面型分子在银膜上的SERS谱,讨论了它们在银膜表面上的吸附方式,并对这类分子在SERS现象中的模选择增强机制做
目的:总结施他宁联合大黄治疗重症胰腺炎的护理经验.方法:28例患者在实施支持治疗的基础上,静脉持续应用施他宁,同时经胃管注入大黄.结果:施他宁联合大黄治疗重症胰腺炎总有
目的探讨体外冲击波(extracorporeal shock wave,ESW)对大鼠骨间充质干细胞(marrow mesenchymal stem cells,MSCs)黏附、迁移及成骨分化的影响及SDF-1/CXCR4通路在其中的作用