基于LSTM的可解释视觉问答系统设计与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:tanyanlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的飞速发展,视觉问答领域已经取得了重大进步。视觉问答作为计算机视觉与自然语言处理的交叉领域,其基本任务是观察图像并在此基础上回答文本问题。现有的方法大多是通过预训练的自上而下的注意力机制对图像特征进行表示,然后使用单层门控循环单元(GRU)对文本问题进行编码,最后联合这两种特征得到预测答案。目前,虽然视觉问答系统在准确率上体现出了强大的性能,但无法提供模型决策的过程以及理由,这使得很难诊断系统的决策是否准确。针对上述问题,本文提出了一种基于长短期记忆网络(Long Short-Term Memory,LSTM)的可解释视觉问答模型。该模型的核心为答案预测模块和文本解释生成模块,答案预测模块将图像特征与文本特征融合之后输入到非线性层中,接着使用线性映射来预测答案。文本解释生成模块使用融合语义的词频统计方法,从答案信息中提取主题词,结合LSTM生成文本解释,旨在为视觉问答任务预测答案的同时生成与人类语言一致的解释,从而更好地阅读和理解图像,提高系统的可信性。与传统视觉问答方法相比,本模型能够同时向用户提供模型的预测结果和解释结果,兼顾视觉问答任务答案预测的准确性和可解释性。本文在VQA-X数据集与VQA-E数据集上进行实验评估,实验结果表明,本文提出的基于LSTM的可解释视觉问答模型与目前主流的视觉问答模型相比,本模型在答案预测的准确率上有一定的提升。能够在视觉问答任务中生成高准确率答案的同时生成高质量的文本解释。同时,在本文所提出的基于LSTM的可解释视觉问答模型基础上,基于Python和Py QT相关技术,设计并实现了一种基于可解释的视觉问答系统。此系统可以为用户提供可解释的视觉问答任务,能够保证在生成高准确率的答案同时生成高质量的文本解释。本文对系统进行功能与性能测试,结果表明此系统各个功能模块均能得以实现,系统执行稳定,符合预期需求分析的结果。
其他文献
在全球经济增速放缓的大背景下,再叠加席卷世界的新冠疫情,中国就业形势十分严峻。而随着互联网浪潮的兴起,中国网民的数量急剧增长,这极大地促进了互联网招聘行业的发展,使用求职类应用软件的求职者也在与日俱增,互联网技术的最大优势在于信息传递的快速性和无限性,人们可以足不出户就了解到远在千里之外的招聘信息。求职类应用软件的招聘信息数量庞大,更多的选择性被赋予了求职者,他们可以认真浏览仔细挑选,直到找到自己
学位
随着经济全球化的发展,中国股票市场也在不断发展,深圳交易所和上海交易所的股票相关制度不断的完善,我国上市公司的数量越来越多,中国股票市场呈现为错综复杂的关系网络。股票市场的本质是一种复杂系统,股票之间相互影响、相互作用,形成了股票市场的生态和价格演化过程。而复杂网络的其在建模真实数据结构时表现出的灵活性和普适性,复杂网络就成为研究股票市场的利器。目前,运用复杂网络的技术方法探索股票网络的物理结构和
学位
近年来,比特币作为一种数字加密货币,受到了媒体、学术界以及监管机构等各方的关注。从2010年比特币第一次交易至今,其价格上涨了100万倍以上,众多学者通过定量和定性分析的方法得出比特币价格存在泡沫的结果。比特币交易市场的有序运行对金融市场的发展具有重要价值,泡沫破裂会对金融市场的发展造成较大影响,因此需要对比特币价格泡沫进行测度和预警。本文基于现有的比特币价格泡沫理论,选取了2013年1月1日至2
学位
随着数字化进程不断推进,大量企业在加速各类流程自动化的过程中逐渐引用数据库、云存储等技术平台,积累了大量客户数据。由于大数据技术逐渐成熟,一些企业开始从客户数据中挖掘有用信息,以指导企业更好地运营。目前,市场竞争日趋激烈,同行业的产品同质化现象日益严重。客户成为企业赢得市场先机的重要资源。在产品同质化背景下,客户占据绝对的主导地位,一旦企业无法满足其需求或者有更优的替代选择,就很容易导致客户的流失
学位
目前,我国经济正处于快速发展阶段,证券市场欣欣向荣,上市公司层出不穷,但相关审查机制和监管法规相对不够完善,导致上市公司财务舞弊行为频发,虽然目前采取的监管措施在一定程度上减少了财务舞弊的发生,但财务舞弊依然是近几年监管部门的心头大患。企业为了谋取自身利益从而通过某些不正当的手段进行财务舞弊不仅影响上市公司自身的发展,让公司时刻面临着停市的风险,还影响公司内外各利益相关者的权益,阻碍了我国资本市场
学位
环境细颗粒物(PM)对健康的影响已经被全球广泛研究了几十年,PM被列为全球导致人口死亡和残疾的第六大危险因素。PM2.5与PM10与各种短期和长期健康不良影响有关,可吸入颗粒物会被人体吸入并积累在人体中,沉积在呼吸道中,并进入肺泡等部位,引发多种疾病,对人体健康造成严重危害,长时间暴露于高浓度的环境细颗粒物中甚至会引起死亡,中国每年因为PM污染导致的过早死亡人数在165万至219万之间。近年来,环
学位
随着社会不断发展,人们对社交需求不断增加,类似商场、广场等公共场所的人流量也在不断增加,这对公共场所行人安全的要求变得越来越高。在公共场所发生突发事件时,由于相关管理人员没办法及时获取突发事件的预警消息,导致无法及时疏散人员,最终造成公共场所人员的生命损伤或者财产损失。针对这种需要长时间监控的情况,传统人工视频监控没办法高效地完成监控预警工作。如今监控视频技术不断更新和应用,使用智能化的视频来侦测
学位
随着日常生活中电子设备和社交媒体的广泛应用,新闻、商品评论等文本类型的数据大量增长,快速提取和分析文本信息的需求显著上升。主题分析可以帮助我们快速确定想要了解内容,自然语言处理中的主题模型能从大量的文档中提取出有意义的词语、能够有效的将多个文档表示为主题,因此研究主题模型是十分必要和有意义的。主题模型是自然语言处理任务中一种典型的无监督任务,缺乏有标注的监督数据。在单语言的情境下,其他任务上表现良
学位
风格迁移算法是当前计算机视觉领域的热点研究方向之一。当下神经风格迁移的技术路线可分为:基于图像迭代的风格迁移和基于模型迭代的风格迁移。其中,基于图像迭代的风格迁移算法,通过不断迭代噪声图像的像素来生成风格化图像,具有合成图像质量高、可控性好、易于调参、无需训练数据的优点。而基于模型迭代的风格迁移技术,借助生成对抗网络(GAN)强大的生成能力,通过预训练生成模型来实现快速风格化。该方法具有计算速度快
学位
共享这类现阶段较为普遍的消费模式,很早就出现在人们生活中,它被理解为按需相互输出但不过度追求输入的一类商品,通常发生在较为亲密的社会关系间。过去十年,社会经济不断发展、大众对于商品的期望值变高、商品归属权认知的变化等推动了共享经济行业的飞速发展,而其首要实践领域则为旅游及住宿行业,共享经济与其彼此融合,便成就了共享住宿。共享住宿平台Airbnb现已成为极受欢迎的住宿选择,预计会对酒店行业造成一定冲
学位