基于Inceptionv4与RNN的图像中文描述算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:game780
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2014年以来,随着人工智能,云计算,大数据,区块链等新兴技术在社会中的普及应用与快速发展,海内外掀起了对图像英文描述的研究热潮。但是由于图像中文描述任务本身与图像英文描述任务存在的差异性,使得学者对图像中文描述的研究没有取得很好的进展。同时由于21世纪以来,关于图像描述的研究大都基于神经网络的Neural Image Caption模型,在该模型的基础上进行不断的优化与改进。虽然基于Neural Image Caption模型的图像描述研究取得了较大的成功,但仍存在一些关键性问题。例如:模型生成的图像文本描述语句精确度低、所用的词汇较为单调、用户无法直接可视化调用生成的模型、不能进行可视化的操作。此外,当前图像描述任务使用的数据集和网络模型,大多是基于英文数据集进行设计和研究的,因此开展针对中文语言环境的图像中文描述的研究是必不可少的。针对上述问题,本文主要的研究工作如下。1.本文在图像英文描述网络模型的基础上,基于编码-解码器框架的Inceptionv4网络与LSTM(Long Short Memory Networks)网络,利用AI Challenge中文数据集实现了图像中文描述任务,并且实验的过程中进行了训练算法的优化。本文通过与其它网络模型的对比实验,证明了该网络模型的有效性。2.本文基于编码-解码器框架的Inceptionv4网络与LSTM(Long Short Memory Networks)网络,在原有网络结构的基础上,对该网络结构进行了改进。在编码器阶段使用融合注意力机制的Inceptionv4网络提取图像视觉特征,在解码器阶段使用双层门限递归单元GRUs网络进行中文句子的生成。在算法训练时,采用Adam优化器进行训练优化。实验证明,新型的图像中文描述模型能够自动生成语言更加通顺、结构更加准确的中文描述语句。3.本文将训练出的网络模型与其它经典的图像中文描述网络模型在BLEU、METEOR、CIDEr、Perplexity等多个评价指标中进行了对比评价,并且都获得了很不错的结果,相关评价指标优于以往的图像中文描述算法模型。4.基于深度学习的算法网络,不能直接进行可视化调用的特点,本文利用Py Qt与数据库SQLite制作了图像中文描述程序的GUI用户交互界面,使得用户可以在软件界面上进行深度学习算法网络程序的直接调用,并且该软件程序可移植到硬件平台进行调试使用,初步解决了深度学习模型不能可视化问题。本文对图像描述任务的网络模型、训练优化算法、网络模型数据集进行了深入地研究,开展了针对中文环境的图像描述任务研究。并且为改进后的图像描述模型制作了GUI可视化程序,为图像中文描述任务在生活中的实际应用奠定了基础,同时也为图像描述任务在此后的学术研究与实际应用发展提供了参考方向。
其他文献
有效应对突发事件、维护社会和谐稳定,是政府的基本职责,也是公共管理研究的重要范畴。党的十八大以来,以习近平同志为核心的党中央立足我国灾害事故多发频发的基本国情,就应急管理作出一系列重大战略决策,提出应急管理体系现代化的宏伟目标,推动我国应急管理实现里程碑式发展。我国应急管理体系建设具有较强的“政策驱动”色彩,政策是应急管理体系建设的直接驱动力,同时应急管理体系建设中存在的问题首先就反映在政策层面,
随着中国和埃及关系的发展,很多埃及学生对中国文化兴趣激增,埃及汉语学习者更是逐年增多。埃及艾因夏姆斯大学语言学院中文系是埃及汉语学习者的理想胜地。基于此,论文以埃及艾因夏姆斯大学语言学院中文系课文课课程为逻辑起点,以埃及艾因夏姆斯大学语言学院中文系课文课课程目标、课程内容编写、教学方法师资队伍等为分析对象,运用文献法、个案法、访谈法和问卷调查法对埃及艾因夏姆斯大学语言学院中文系的课文课课程的特点及
随着我国经济文化的蓬勃发展,我国国民整体素质也在不断提升。国民日益增长对文化艺术的需求,间接体现在对学生文化艺术素质教育的关注与重视上。许多家长不惜重金送孩子参加各类音乐艺术的培训班,以提高学生的音乐艺术修养。在这种背景下,学校的音乐教育也在不断摸索新的发展方向,从课堂内的理论教育与欣赏教育逐渐转向课堂外更加广阔的实践教育。长期实践以来,人们得到一个普遍且一致的认知,课外音乐实践活动对于学生音乐艺
导学案教学顺应了我国教育改革的发展趋势,符合新课改理念,被广大学校所推崇。导学案设计是导学案教学的灵魂,关系到导学案教学的成败。初中道德与法治导学案设计对于师生都是一次成长的机会,有利于培养学生自主合作探究的能力和意识,有利于提升教师的课堂组织和管理能力,有利于构建高效课堂。本课题的研究结合了我的教育教学实践和山西中考命题方向,主要围绕导学案的组成、设计原则、存在的问题、存在问题的原因及解决措施展
随着我国进入社会转型期,政府不再是养老服务的唯一供给主体,计划经济体制下政府全权负责养老机构建设、管理、运营的模式已不可行。社会养老责任由政府单一主体供给转向市场化的多元主体供给是激发养老服务市场活力的有效途径。2017年,重庆市政府办公厅颁布《全面放开养老服务市场提升养老服务质量的实施意见》强调“加快推进养老服务业供给侧结构性改革,保障基本需求,繁荣养老市场,提升养老服务质量”。目前,重庆市面临
作文是HSK六级考试中一个必不可少的重要部分,作文是书面表达的重要形式,是检测学生汉语书面表达水平的主要手段。在汉语学习过程中,最主要的任务就是培养读写能力,因此写作教学成为汉语教学的重要组成部分。在教学的实践中笔者发现,由于受到各种因素的影响,埃及学生在HSK六级作文中总是出现一些语法偏误。本文以埃及学生HSK六级作文的语法偏误为切入点,全面调研各个语法点的偏误类型,力求充分展现埃及学生的语法偏
音乐是人与人之间交流的产物和工具,音乐的意义存在于创作者、演奏者与欣赏者之间的交流关系中,而在钢琴音乐的教学中,学生是演奏者、欣赏者,还是情感体验的主体,我们不仅要重视钢琴作品本身的学习,也应该要重视学生与音乐作品之间的情感交流,激发他们内心的情感力量。本文选取了两个特别重视情感的时期——巴洛克时期和浪漫主义时期,从情感表达的方式出发,比较巴洛克和浪漫派音乐的情感表达特征,发现巴洛克的情感是一种客
罪犯的矫正成功被认为是世界刑事司法体系中的“圣杯”(1),如何保障罪犯矫正的有效性是世界性难题。性侵罪犯的矫正更是公认的难题(2),性侵罪犯再犯率较高(3)是对矫正有效性的否定性回答。性侵害犯罪对社会危害性极大,甚至引发一定范围的社会恐慌,背后有着深刻的社会及文化背景。在儒家文化长期浸润下,遭到性侵的受害者,其个人、家人都承受着身心伤害。在社区服刑的青少年性侵罪犯,如果没有得到足够的改造与教育,其
文化消费是扩大内需的重要引擎,对于提升经济发展质量、引导产业结构调整、促进社会进步乃至人的全面发展都大有裨益。实际上,自2015年“文化消费试点项目”启动以来,国家相继出台了《关于开展引导城乡居民扩大文化消费试点工作的通知》、《完善促进消费体制机制实施方案(2018—2020年)》等多个统领全局的文化消费政策文件。在国家方针政策的引领下,重庆市因地制宜,陆续出台了《推进十大扩消费行动工作方案的通知
学位