面向视觉问答的图像处理技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:my_sunday_tongxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答任务是根据图像以及相应的自然语言问题得到正确的自然语言答案,涉及到计算机视觉以及自然语言处理,是必须处理多模态输入且通过一定的推理才能解决的任务。现有模型主要基于冗余的视觉特征进行推理,引入过多图像噪声;基于低层次的图像语义特征进行推理任务,很难判断模型是否获取到了有效的图像特征表示。视觉问答系统目前主要在公开视觉问答数据集上进行性能评估,本文将重点放在数学图表类的视觉问答研究上,进一步提升现有模型的准确率。基于上述问题,考虑到结构化高层次的图像语义表征更加适合用于推理场景,本文设计了一种基于对象的视觉问答推理模型,提供一种可解释的高层次结构化的图像语义表示结合自然语言理解技术去完成推理任务。整个框架分为图像解析器、问题编码器以及通用推理模块三个部分,图像解析器使用目标检测模型来完成图像中对象的检测工作,对检测结果进行解析获取对象的相关属性信息;问题编码器是利用循环神经网络相关技术将自然语言问句映射到向量空间或者另一种表征形式;通用推理模块联合图像、问题表征完成推理工作。图像解析器基于目标检测模型,因此根据数学图表类数据特征针对FasterRCNN、RefineDet模型提出模型优化策略,在柱状图、饼图上取得91.57%mAP,在线图上取得78.86%mAP。为了验证基于对象的视觉问答推理模型,在微软开源数据集FigureQA上进行性能评估,取得了比以往已知方法更好的实验效果,并且训练时间压缩基线模型的15%。
其他文献
随着城市交通建设的快速发展,轨道交通出行目前正在逐渐成为人们出行的重要方式。轨道交通工程项目由于自身的特点,其质量管理需要受到诸如设计、施工、环境、机械、工艺、规
针对辽宁省作为重要的老工业基地,技术创新能力不强、装备落后等问题,研究产学研角度下辽宁省科技创新体系建设,从辽宁省产学研合作环境、合作动力、创新绩效等方面分析,认为
杜伟立先生: 新的一年来到了,老百姓最关心的问题我觉得莫过于价格。1996年,与老百姓生活有关的服务项目如医疗、水电、邮政通信等等价格趋势不知怎样,能否给咱们说说。当然,
【正】 句子有单句和复句之分,复句又分为一般复句和多重复句。多重复句跟一般复句不同。一般复句大多由两个分句(并列关系和连贯关系的复句有时可以多于两个分句)组成,在结
【正】 一九二一年十二月至次年四月这段时间,中国民主革命的伟大先行者孙中山曾来到桂林,住在桂林王城里,以王城为大本营进行了许多革命活动。孙中山来桂林的历史背景是什么
到1995年底,中国62万家私营企业代表着大约100万位企业投资者,其中约有2%的业主为百万元资产以上的富翁。作为中国市场经济发展中因为经济成功而风头最健的人物,作为消费者的
针对企业成本竞争优势问题,采用规范研究的方法,分析了战略成本动因、成本行为,提出以用户满意为目标、以市场为导向、侧重战略性决策的管理方法,利用结构性与执行性成本动因
在人们心理健康日益受到严峻挑战的时代背景下,心理健康教育也已成为大学生必修的一门课程,作为提高大学生心理健康水平的有效途径之一。在狠抓思想政治教育的同时,有机结合心理
【正】现代排球竞赛对运动员心理素质的要求越来越高。两队相遇勇者胜,两强相遇智者赢。这个“智”表现在运动员在紧张激烈、错综复杂的比赛中能保持清醒的头脑、情绪稳定,自