【摘 要】
:
视觉和语言作为人类认识世界的重要方式,是人类与外部世界互动过程中的主要信息渠道。最近几年,视觉和语言多模态学习引起了广泛的关注。随着光学字符识别(OCR)技术的进一步成熟,场景文本视觉问答(Text-VQA)任务应运而生,该任务对模型的场景文本理解能力和多模态学习能力提出了巨大的挑战。给定一张图片和一个问题,Text-VQA任务旨在于通过理解图片场景中的视觉和文本信息并回答该问题。因此Text-V
论文部分内容阅读
视觉和语言作为人类认识世界的重要方式,是人类与外部世界互动过程中的主要信息渠道。最近几年,视觉和语言多模态学习引起了广泛的关注。随着光学字符识别(OCR)技术的进一步成熟,场景文本视觉问答(Text-VQA)任务应运而生,该任务对模型的场景文本理解能力和多模态学习能力提出了巨大的挑战。给定一张图片和一个问题,Text-VQA任务旨在于通过理解图片场景中的视觉和文本信息并回答该问题。因此Text-VQA任务所要解决的核心问题之一是如何进行场景文本语义理解,而当前的Text-VQA方法在场景文本理解方面还存在很多不足和亟待解决的问题。具体来说,场景文本视觉问答任务存在以下三个挑战:第一,对场景文本的语义建模。与自然语言文本相比,场景图片中的文本是分散的,需要人们根据场景信息构建其文本上下文,并对其语义信息进行理解;第二,场景文本存在字符缺失时的语义补齐。即图片中的自然场景文本可能存在被遮挡,模糊,或缺失等情况,在这种情况下如何根据上下文,基于现有字符,对场景文本语义进行理解和补齐;第三,在先验知识指导下的语义扩展。因为文本是人类的高阶语言,其蕴含了大量的先验知识,而且在真实场景中很多问题并不能直接根据图片得到答案,模型需要结合场景信息和一些外部先验知识进行联合推理才能得到正确答案。针对上述问题,本文提出了基于文本理解的场景文本视觉问答技术,实现了对复杂场景文本进行上下文语义建模,缓解了场景文本识别错误带来的语义理解偏差,以及有效利用先验知识对场景文本进行语义扩展理解。论文的主要研究内容和创新性工作如下:1)针对场景文本视觉问答任务中的文本语义建模,本文提出了一种基于文本阅读理解的场景文本视觉问答方法。该方法根据文本的自然阅读顺序构建场景文本上下文,并通过机器阅读理解模型充分挖掘场景文本的上下文信息,实现了对场景文本上下文的语义建模。在多个Text-VQA数据集上的实验结果表明,该方法可以有效地学习文本的上下文信息,展现了优秀的性能。而且该方法具有很强的通用性,可有效的与其他方法进行融合。2)针对场景文本存在的字符遮挡和缺失情况,本文提出了一种基于对比学习语义补齐场景文本视觉问答方法。该方法在训练时人为地构造拼写错误的OCR文本,从而使模型对OCR字符错误更加鲁棒,并提出了一个OCR文本和单词对比学习(TWC)任务用来预训练场景文本表示。各项实验表明,该方法在TextVQA和ST-VQA数据集上都显著优于最先进的方法,可以有效缓解OCR文本字符错误所带来的语义偏差。3)针对场景文本视觉问答中文本语义理解难题,本文提出了一种基于先验知识指导的场景文本视觉问答方法。该方法提出了基于OCR文本和问题双重驱动的先验知识检索系统,以及基于提示(Prompt)学习的先验知识验证模块对先验知识进行排序。实验结果表明,该方法可以有效的挑选出与当前场景最相关的先验知识,避免引入更多无关噪声,从而有利于提升整个模型的联合推理能力。
其他文献
<正>成长成才既是实现个人价值的热切期盼,也是加强军队建设的紧迫需求,更是确保党的事业后继有人的重大课题。人人都渴望成才,提职进步是基本标志,但不是完全标志。要树立正确的成才观,做到人岗相适,正确看待个人成长进步。要坚持德才兼备、以德为先。陈云同志曾说过,有德无才办不成事,有才无德办坏事。德才兼备、以德为先,历来是党识人用人的基本原则,也是人才自身的发展方向。这里说的德,一是理想信念、政治品质,即
目的 对比分析甲状腺微波消融术和甲状腺腺叶切除术对良性甲状腺结节患者疼痛程度、甲状腺功能的影响及安全性。方法选取2020年1月至2022年1月贺州市人民医院收治的良性甲状腺结节患者120例,以随机数字表法分为对照组(甲状腺腺叶切除术,60例),观察组(甲状腺微波消融术,60例),均于术后随访3个月。比较两组患者术后3个月临床疗效,围术期相关指标,术前与术后1、3、5 d视觉模拟疼痛量表(VAS)评
目的:本文主要针对患有甲状腺(良性)结节的患者进行研究,通过使用超声引导消融的方式对患者治疗,进而提升对患者治疗的效果。方法:本文选取2019年2月~2021年2月济南市中心医院接收的患有甲状腺(良性)结节的患者100例,为进一步观察超声引导甲状腺消融对患者治疗的效果,采用随机分组方式将100例患者分为消融组和切除组,切除组采用常规甲状腺结节部分切除手术的方式,消融组采用超声引导甲状腺消融的方式,
<正>2022年6月25日,昭通学院举行2022届毕业生毕业典礼暨学士学位授予仪式。3296名毕业生圆满完成学业,深情话别大学生活,喜悦分享奋斗成果,激情展望美好未来。青春勤耕耘,芬芳必自来。学校领导为获得云南省2022届普通大中专学校优秀毕业生荣誉称号的学生们颁发了荣誉证书,为本科毕业生颁发了学士学位证书并举行了拨穗礼,为考取硕士研究生的121名毕业生颁发了纪念品和奖金。学校党委书记陈红教授致辞
目的 了解北京市幼儿园家长给儿童接种流感疫苗的意愿及其影响因素。方法 在北京市东城区和西城区分别随机选择4所幼儿园,将全部2 443名儿童的家长作为调查对象。于2016年1月4日-3月17日以自填方式对研究对象进行匿名问卷调查。主要调查内容为家长为儿童接种流感疫苗的意愿及相关因素。应用非条件多因素Logistic回归模型分析流感疫苗接种意愿的影响因素。结果 回收问卷2 055份,有效应答率为84.
<正>在2021年秋季学期中央党校(国家行政学院)中青年干部培训班开班式上,习近平总书记站在党的事业薪火相传和国家长治久安的战略高度,着眼于统筹中华民族伟大复兴战略全局和世界百年未有之大变局,对年轻干部提出了殷切希望和明确要求。习近平总书记的重要讲话思想深刻、情真意切,体现了对年轻干部成长成才规律的深刻把握和对广大年轻干部的深切关爱,为年轻干部成长成才指明了前进方向、提供了重要遵循。认真学习贯彻习
<正>融资担保机构是政府缓解企业融资难题的抓手之一,特别是政策性融资担保机构,在弥补市场不足、降低担保服务门槛、着力缓解小微企业融资难、融资贵等方面具有重要意义。本文对A市融资担保机构发展现状进行分析,通过借鉴国际上融资担保机构支持小微企业的成功经验,从内部机制和外部环境等方面,对我国融资担保机构更好服务小微企业发展提出相关建议。融资担保机构支持小微企业发展现状及存在的问题从A市来看,2020年全
移动互联网络的高速发展和自媒体的勃兴,技术赋权下信息传播渠道和信息源愈发多元化,在此大背景下网络舆情呈现出突发性、复杂性、失真性和泛政治性的特点。突发事件的网络舆情危机作为社会矛盾冲突在网络空间的投射,如果政府在网络舆情危机中传播政府形象的措施不当,则会导致网络舆情危机不断传播发酵,进而引发现实中的群体性事件,这就会给政府带来巨大压力,影响社会和谐稳定。政府形象是政府的政治资本之一,是政府公信力的
<正>2021年11月12-14日,由南光(集团)有限公司、中国机械工业集团有限公司、澳门会议展览业协会联合主办的第11届中国(澳门)国际汽车博览会(以下简称“澳门车展”)于澳门威尼斯人金光会展中心正式召开,展会得到澳门特区政府、中央驻澳联络办、国家工信部、商务部、国务院国资委、港澳办、中机联等单位以及澳门社会各界的大力支持。