基于深度学习的图像描述方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:jianjiantao456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是图像理解领域的热门话题,融合了人工智能两大研究领域,即机器视觉与自然语言处理。随着深度神经网络的发展和更好的标注数据集的出现,图像描述技术得到了迅速发展。基于卷积神经网络(Convolution Neural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)结合的端到端网络模型是目前使用最为广泛的图像标注方法,但存在描述内容不全面的弊端,如基于区域的稠密描述存在冗余且各描述独立无联系的缺点;使用单句的概括描述依然存在内容不全的问题等。因此,本文针对上述问题,研究了一个通过关注机制融合高层语义(通过稠密的局部区域描述获取)和图像特征的联合模型,以及合理融合局部文本建议框构建全局文本图的改进措施,实现了在准确地把握图像丰富内容的基础上,使用简练的一句或是多句话描述图像内容。首先本文从图像描述的研究背景及其在人工智能研究领域的理论与现实意义出发,介绍了该领域的国内外研究现状及现存问题。其次,针对图像描述内容不全面的问题,本文通过提取图像全局特征与局部区域的高层语义信息,并融合该语义信息指导图像描述的生成,使得模型既能把握全局图像信息生成整体描述,又能很好的注意到细节信息来丰富图像描述,使得图像描述更加全面,实现自上而下和自下而上模型的结合。同时模拟人类视觉注意力特点,引入关注机制,指导句子生成。关注机制根据前一时刻生成的词赋予高层语义不同的关注程度,以此将局部信息的高层语义更好地融入到文本生成的过程中去,使得生成的描述更全面、更准确。另外,在局部区域生成的稠密描述的基础上,提出局部区域文本框融合方法,通过构造全局文本场景图将各局部文本描述结合起来,然后根据区域框的交并比和包含等位置关系,将不同的描述对象进行整合,使得各个部分取得联系,在去除稠密描述冗余的同时整合多个局部描述生成一句或多句整体描述。最后,本文利用torch框架搭建了上述模型,使用VGG卷积神经网络作为编码器提取图像特征,LSTM(long-short-term-memory)循环神经网络作为译码器生成描述。在Visual Genome和Microsoft COCO联合数据集上完成了模型的训练,并在Microsoft COCO,Flickr30K数据集和随机下载的图片上使用多种评价指标进行测试,实验验证本文提出的改进方法能够生成更加全面的图像描述,同时语言表达具有逻辑性、清晰、不重复。
其他文献
随着信息技术的发展,通信工程的应用越来越广泛,在人们的生活中占据着越来越重要的地位,因此对通信工程传输技术的要求也越来越高。有线传输技术在通信工程中的应用,大大提高
慢性尿路感染的治疗,敏感抗生素及相应的免疫疗法、雌激素疗法为其治疗提供了新的手段。但在改善症状、减少复发方面,中医中药显示了其独特的优势,在抓住"肾虚湿热"病机的基
上个世纪80年代末90年代初以来,当代中国民族主义已经成为中国思想界一个广泛、长久和相当重要的讨论议题,学者们为此进行孜孜不倦的探讨,在有关民族主义的定义、当代中国民
<正>“两汉文化看徐州”(简称“两汉看徐州”),已经成为徐州旅游文化的特色的旗帜,旅游界人士也几乎众口一词。但是,若要求根究底:“两汉文化看徐州”究竟看什么?不少人却又如
会议
中医对更年期综合征的辨证多从肾虚着眼,而脾胃在本病中的影响,却未得到足够的重视,脾乃"后天之本,气血生化之源",而妇女以血为本。中焦脾胃与更年期综合证的发病有着密切关
参考古词义及《内经》、《伤寒论》等文献,考证《金匮要略》胸痹心痛内涵,得出张仲景继承了《内经》的学术思想,提出胸痹、心痛共同的基本病机为阳虚阴盛,主症上都表现为剧烈
“在事关大是大非和政治原则问题上,必须增强主动性、掌握主动权、打好主动仗”。习近平总书记“8.19”讲话中的精辟论断,既为加强意识形态工作指明了努力方向,也对党员干部特别
期刊
黔西北彝族艺术表现形式丰富,而它的繁荣与土司文化有着密切的联系。在这个庞大而浩繁的艺术宝库中,王府建筑以其恢弘的气势,囊括了建筑的规划布局、造型设计、石木雕刻、装
为了顺应时代发展的要求,近几十年来,许多国家和地区逐步把自主行动作为学生的核心素养之一。我国亦然。但不尽如人意的是,PISA测试和相关调查显示,我国中学生学习自主性仍然
10月27日,“2008中国徐州汉文化旅游节”在汉文化景区拉开帷幕。来自世界各地以及国内其他城市的嘉宾汇聚一堂,共同感受徐州两汉文化底蕴。启动仪式上,嘉宾们纷纷盛赞徐州汉文化
报纸