面向特定场景的视觉问题生成算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：sunyb_sky

【摘要】

：

近年来随着深度学习的快速发展,视觉问题生成(VQG)逐渐开始成为一项重要的研究内容,它的任务形式是对于输入的图像给出关于图像内容的一些问题,VQG在多模态对话、幼儿教育以

【作者】

：

孙廉杰

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

视觉问题生成注意力机制特定类别问题生成

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着深度学习的快速发展,视觉问题生成(VQG)逐渐开始成为一项重要的研究内容,它的任务形式是对于输入的图像给出关于图像内容的一些问题,VQG在多模态对话、幼儿教育以及医疗问诊场景都有着十分重要的研究意义。通过对VQG研究现状的调研,本文发现目前大多数关于VQG的研究距离某些特定场景(如幼儿教育、医疗问诊等)的实际需求还有很大的差距,主要有两点不足之处,其一是大多数VQG模型并不能为生成的问题明确的“指出”图像中所对应的区域,即缺乏生成的问题的区域解释性;其二是大多数VQG模型只能生成通用性的问题,即生成的问题的类别(比如关于颜色、形状等)是随机的,这种通用性的问题通常在一些特定场景中是没有太大意义的,因此如何能够让模型生成特定类别的问题是一个比较重要的研究方向。针对上述的第一个缺点,本文首先利用FCLN模型作为辅助模型对输入图像预处理,对于每一张图像都得到不同的目标检测区域以及每一个区域对应的内容描述语句,然后提出抽取-生成-强化学习(EGR)模型,EGR模型包含Extractor(抽取)、Generator(生成)以及联合强化学习三个子模块,Extractor模块首先利用注意力机制对每一张图像的所有内容描述语句进行抽取,然后Generator模块将每一个内容描述语句转换为相应的问题语句。最后实验证明EGR模型不仅能够“指明”每一个问题对应的图像子区域,而且在ROUGE等指标上也基本能够与主流模型持平。针对上述的第二个缺点,本文提出以变分自编码器为基础的特定类别问题生成模型。该模型包含编码器网络与解码器网络,编码器的输入为图像、问题类别以及问题语句,然后利用注意力机制对输入编码,并最终将输入映射到一个隐空间,而解码器的主要作用则是从隐空间中进行向量采样,并对输入的问题语句进行重构。最后模型在VQA-2.0数据集上的结果表明,与目前的主流模型,本文提出的模型在各个指标上都基本均有提升,比如Bleu-4提升了1.61%,METEOR提升了0.79%,证明本文提出的模型能够生成相对接近人类的问题语句,除此之外,Strength指标与Inventive指标分别提升了5.04%与9.64%,证明本文提出的模型能够生成更加多样性的问题。

其他文献

基于融合全局和局部特征的人脸部分遮挡算法研究

随着深度学习、计算机视觉等相关技术的日益成熟,人脸识别已然成为全球在视频智能应用领域的主流,很多车站与机场已经大量使用基于人脸识别实现的通关检查系统,使得这项技术

学位

部分遮挡人脸识别局部特征误差图像改进的LRC算法(ILRC)

基于3D打印技术的模拟油藏储层微流控仿真与实验研究

石油是不可再生资源,石油持续稳产增产涉及国家的能源安全。随着油田开发难度逐年增大,第三次采油技术即提高采收率(EOR)技术不断涌现。然而许多EOR技术难以大规模推广是由于

学位

微流控器件亲水和疏水改性EOR技术3D打印提高采收率

关键技术领域外资并购国家安全审查制度及其完善

随着新科技革命的迅猛发展,科技的第一生产力作用日益彰显,一国的综合国力主要取决于科技创新能力和发展潜力。很多国家都把关键技术的研发作为国家战略,重视通过吸引外资来

学位

外资并购关键技术国家安全审查外资监管

基于可验证随机函数的拜占庭容错共识算法的改进与实现

区块链技术是下一代云计算的雏形,有望像互联网一样彻底重塑人类社会活动形态,并实现从目前的信息互联网向价值互联网的转变。共识算法是区块链技术的核心,使得区块链可以在

学位

区块链可验证随机函数拜占庭容错以太坊

现实学者社区发现系统设计与实现

产学研合作促进了创新网络的形成,然而在推进产学研合作过程中,企业却很难获取高校学术团队信息。其中,学者群体数量庞大、企业与高校的信息不对称是导致问题产生的主要原因

学位

学术网络网络表示学习node2vec社区发现

极性分子表面滤波、聚束与存储的理论研究

冷分子领域经过二十年的发展,取得了很多令人瞩目的成就,并在物理、化学等诸多学科中有非常重要的应用。一系列制备和操控冷分子的技术也应运而生,例如分子的静电速度滤波、

学位

冷分子速度滤波器聚束器存储环蒙特卡罗模拟

开放性问题的答案评估方法

文本评估属于自然语言处理研究领域的任务之一,面对海量的文本数据,实现端到端的自动化文本处理和评估能够节省大量人力物力成本,极大提高工作效率。与此同时,通过计算机的深

学位

开放性文本评估注意力机制预训练语言模型数据增强

个人征信市场化法律对策研究

2018年2月23日,央行发布信息,百行征信有限公司的个人征信业务获得央行许可。这是央行颁发的首张个人征信牌照,标志着国内个人征信行业打破了由政府主导的局面,向更加市场化

学位

个人征信市场化法律对策

基于人体骨架的动作识别

在视频监控系统中,识别人们玩手机、摔倒或打架的动作是必要的。动作识别是人的三维运动信息,在真实的监控视频中快速准确的识别人的动作仍存在很多问题。为了解决这一问题,

学位

动作识别图卷积时间卷积注意力模型人体骨架物体骨架

面向心血管疾病辅助诊断的医学图像分割与分类算法研究

心血管疾病是目前最主要的公共卫生问题,医学图像在心血管疾病的医学临床辅助诊断中有着不可或缺的重要作用。白细胞分类计数作为心血管疾病初步诊查项目中一项意义重大的技

学位

心血管疾病医学图像深度学习白细胞分类心脏MRI分割

面向特定场景的视觉问题生成算法研究

与本文相关的学术论文