基于结构化文本的图像语义描述生成方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xiaomai1212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能技术在多媒体领域的不断发展,对图像生成自然语言描述得到了越来越多的关注。针对不同的图像信息,我们生成的自然描述将包括图像中存在的物体以及物体所具有的属性、活动和场景,这种描述将更能体现图像的细节信息,便于人们的理解。基于上述需求以及人工智能技术,特别是深度学习技术的不断发展,在本文中,我们主要介绍了基于已经生成的结构化文本(例如<物体,属性,活动,场景>四元组)来产生图像的自然描述。所以,本文主要介绍了通过两个步骤来生成具有丰富信息的图像自然语言描述的方法。第一部分为结构化文本的生成阶段,在这一阶段中,我们采用多任务学习的方法来识别图像中存在的结构本文:<物体,属性,活动,场景>。在下一阶段中,我们使用基于深度学习的机器翻译方法,将已经生成的结构化文本序列作为源语言,并利用这些识别出的结构化文本来生成具有语义的,有意义的自然语言描述。为了达到这一目的,我们使用了长短期记忆模型(LSTM)编码-解码机器翻译模型来将上述结构化文本序列翻译为目标语言,也就是图像的自然语言描述。特别地,这些描述主要由物体和它们具有的属性,比如颜色,大小等,以及物体之间存在的相应的活动关系和场景所组成。与此同时,为了证明第一阶段中我们采用多任务学习的方法生成结构化文本的有效性,我们在一些基准数据集比如aPascal和aYahoo上做了相应的实验。同样的,我们也在UIUC Pascal,Flickr8k,Flickr30k和MSCOCO这些基准数据集做了相应实验并依据一系列的语言描述评判标准来证明使用我们提出的方法将结构化文本翻译为语言描述相比较其他方法取得了有效的提高。
其他文献
随着卫生事业的发展,护理改革的不断深入,医学模式的转变,护理模式已由传统的&#39;以疾病为中心&#39;转变为&#39;以病人为中心的&#39;整体护理.我院手术室自2004-01~2004-12对
氢脆是造成车轴钢失效的重要原因之一,而氢脆的发生与氢在车轴钢中扩散密切相关。为了预防氢脆发生,本文用电化学充氢法研究了25CrMo、25CrNiMo和30CrNi3MoV三种车轴钢的氢渗透特性和氢扩散系数,计算出氢扩散激活能、氢陷阱结合能和氢陷阱密度等参数,并利用扫描电镜(SEM)和透射电镜(TEM)等表征手段分析了高温回火及Cr-Mo-Ni-V合金化对车轴钢氢扩散行为的影响,结果如下:520℃、
中国是一个缺水严重的国家,人均水资源占有量仅为世界人均水平的四分之一,是世界上十三个贫水国之一。同时我国也是一个农业大国,耕地面积为20.24亿亩,居世界第三位。灌溉农
一、问题的提出下面是我校一位高三老师开设市级公开课时的一道例题,学生的解答不是十分顺利,我对学生的想法做了分析,并对这道题进行了反思和拓展.
目的探讨二甲基亚砜(DMSO)血小板冻存剂优良的制备及质量控制方法。方法将分析纯DMSO进行除茵过滤后,样品分别以126℃30min一次、126℃30min二次湿热灭菌和180℃3h干热灭菌3种方
房地产开发项目预结算在整个工程造价中,是十分重要的组成部分之一,具体包含了造价、统计与财务等各方面工作,具有一定的复杂性。开展房地产开发项目工程预结算工作,对于相应
文化与语言有着密切关系,不同的民族具有不同的文化,语言词汇则是最明显的承载文化信息、反映人类社会文化生活的工具.英汉语言中许多词汇都常带有特定的文化信息,此种文化信
<正>国家城市能源计量中心(重庆)与重庆鑫业船舶件有限公司合作,为重点耗能企业研制了一套能源数据管理系统(Energy Data Management System,EDMS),即使用现代物联网技术,结
随着教育全球化与信息化进程的发展,如何提升高校信息化教学水平是关系高等教育质量的关键因素之一。基于物联网、云计算及大数据背景下媒体教育资源呈现出多元化的特点,结合信
修辞即语言材料的选择。更确切地说。是根据一定的题旨和语境,利用语言诸要素或其它表现方式,对言语作品进行的艺术加工和选择。作为写作课的老师,我们的任务之一就是要尽可能多