知识数据联合增强的场景文本视觉问答方法

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:wwwdslyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一张图像和一个自然语言描述的关于图像的问题,视觉问答任务旨在学习模型,根据问题对图像内容进行细粒度理解,并在此之上展开视觉推理以给出准确的预测答案。该任务是近年来人工智能、计算机视觉等领域的研究热点。现有视觉问答方法通常只关注图像中的视觉物体,忽略对图像中关键文本内容的理解,从而限制对图像内容理解的深度和精度。为解决该问题,针对图像中场景文本理解的“场景文本视觉问答”任务应运而生。为理解图像中的文本,场景文本视觉问答模型需要利用光学字符识别模块提取图像中的文本特征,并将其融入视觉问答模型。该任务有两个难点:(1)如何增强文本与其他模态的关联度。现有模型未精准建模文本对象与视觉对象间的相对空间关系,从而限制对关键对象的定位能力,也忽视文本与答案间的相对语义关系,导致预测单词前后无法自然衔接。(2)如何突破文本特征表达局限引起的瓶颈问题。现有模型对文本对象的语义和视觉特征刻画不准确,难以与多模态特征有效融合。为解决上述两个难点,本文提出以下两个方法:针对文本与其他模态关联度较弱的问题,本文提出一种知识增强的方法,将空间关联知识和语义关联知识两类先验知识融入强基线模型M4C中,提出一种基于知识增强的M4C场景文本视觉问答方法KE-M4C。其中,空间关联知识对视觉对象和文本对象间的相对空间位置进行编码表征,有效对两两对象间细粒度的空间关系进行精准刻画;语义关联知识表示文本单词和预测答案单词间的语义相似性,对存在上下文语义关联的单词进行表征,以提升答案生成过程的可靠性。针对文本特征表达局限引起的瓶颈问题,本文在上述知识增强方法的基础上,进一步引入两种不同的预训练策略,提出一种数据增强的场景文本视觉问答方法KDE-M4C。其中,挖掘模型预训练中的高质量光学字符识别数据集的信息,提高学习文本表征的能力,利用目标检测器预训练时的大规模目标检测数据集的内容,增强图像内容表征的能力。两种预训练策略中的数据与两种先验知识相结合,有助于模型深入理解图像中的文本内容。为验证提出方法的有效性,本文在场景文本视觉问答任务基准数据集上进行充分的实验,证明所提出的方法在各项评价指标上都要优于目前主流算法。同时,以本文提出的方法为核心,设计并实现了基于网页的场景文本视觉问答系统。
其他文献
近年来,随着人工智能技术不断发展与创新,电子商务借助人工智能技术实现新突破。各大电商平台相继推出虚拟试衣服务,旨在改善消费者的网购体验,从而提高零售商的销量。本文主要研究基于图像的虚拟试衣,并根据适用场景将其划分为基于时尚单品场景的虚拟试衣和基于全套服饰场景的虚拟试衣。通过对两个场景的虚拟试衣方法的深入研究,本文展开以下两个工作:(1)通过分析基于时尚单品场景的虚拟试衣的难点,针对其存在的服装形变
学位
随着基于位置的社交网络(Location-Based Social Network)的快速发展,海量的签到数据被用于挖掘用户的行为模式以实现兴趣点(Point-of-Interest)推荐。兴趣点推荐不但可以提高用户体验,增加用户粘性,还能为商家带来潜在的商业利益,已成为推荐系统中最重要的研究方向之一。现有的相关工作主要对时间、空间、序列、社会关系等多种因素进行建模。但是,这些工作还存在着诸多不足
学位
K均值聚类和谱聚类是无监督学习中流行的聚类方法,旨在根据样本相似性对数据点进行分簇。然而,K均值聚类因簇初始质心初始化的质量差异和离群点干扰,导致其聚类结果存在较大随机性,即聚类性能相对不稳定,同时不能有效处理非凸分布数据集。另外,完整的传统谱聚类采用三阶段策略完成聚类,即根据输入数据构造相似度图,然后在图上执行谱嵌入得到松弛的连续标识矩阵,最后运用Kmeans或谱旋转等后处理技术对连续标识矩阵离
学位
互联网给人们的生活带来了便利,但是也造成了各种安全问题。不法分子为了牟利在互联网上发布各种不良信息,比如:垃圾邮件、色情广告信息等。大量的不良信息不仅会破坏网络环境、影响人们的上网体验,而且会影响到青少年的身心健康,甚至会危害社会治安。现有的不良短文本识别方法能够过滤掉部分不良信息,但在识别带变体的不良短文本时效果不佳。变体是不法分子为了逃避检测而在其发布的不良短文本中添加的一种干扰噪声,其中同音
学位
脑胶质瘤是最常见的原发性中枢神经系统肿瘤之一,具有极高的发病率和致死率。磁共振成像(Magnetic Resonance Imaging,MRI)能对大脑软组织进行高空间分辨率和高对比度成像,是医生进行脑胶质瘤影像诊断的最佳选择,但人工判读的过程不仅费时费力,而且严重依赖于主观经验,存在极大不稳定性。目前,基于深度学习的图像分割算法能够实现脑胶质瘤的自动化分割,有效地提高了医生的诊断效率。然而,由
学位
细粒度图像分类是用来区分同一类别下不同子类的。由于该任务存在类间视觉差异细微的难点,细粒度分类任务相对于通用分类更具挑战,如何从图像中学到更具判别性的局部特征是解决此问题的关键。在现有细粒度分类方法中,双线性模型和破坏重建模型被认为是应对细微类间差异最有效的两种模型。双线性模型可以不依赖额外标注信息,通过特征交互自主挖掘判别性特征。破坏重建模型则通过打乱图像的全局语义信息生成破坏图像,迫使网络去学
学位
印刷线路板(Printed Circuit Board,PCB)的缺陷检测已经成为电子制造业保证产品质量和降低制造成本的关键过程。目前自动光学检测(Automatic Optic Inspection,AOI)是PCB缺陷检测的主要发展方向,AOI首先将标准图像和采集图像进行配准,然后再对两者进行比对和缺陷识别。在该过程中图像配准的优劣直接影响缺陷检测的效率和精度。PCB图像具有高分辨率的特点,现
学位
数字水印以人眼不易察觉的方式将秘密信息隐藏在载体对象中,以实现对目标的版权保护、身份认证、篡改检测等。其中,可逆水印技术能够无损恢复原始数字载体,在如档案图像、医学图像、军事图像等对原始数据有高质量要求的领域具有重要的意义。近年来,深度学习技术发展迅速,在很多研究领域都取得了巨大突破。但由于可逆水印算法往往涉及一些复杂而又巧妙的机制设计,以此在保证可逆性的同时兼顾水印容量和图像质量,而深度神经网络
学位
作为现代经济的核心,金融既是实体经济的血脉,也深刻影响着收入分配。但近年来,金融“脱实向虚”的趋势和经济金融化的问题不断凸显。经济金融化具有自发性,需要政府进行调控干预。从引致增长的效应看,节制的金融化有助于社会财富收入的增长,但过度的金融化则会产生抑制作用和增长停滞效应;从引致贫困的效应看,金融化会拉大贫富差距,过度的金融化将严重拉低劳动者参与社会财富分配的份额,无益于我国按劳分配的主体分配制度
期刊
碰撞检测是虚拟仿真模拟中的一个重要研究问题。随着虚拟环境的复杂度不断增大,虚拟仿真应用对物体碰撞检测精度和速度的需求也逐渐提高。目前的层次包围盒碰撞检测算法已经在准确性方面达到了一定的效果,但是随着虚拟环境复杂度的提升,其实时性需要进一步提高。因此,通过对不同类型包围盒的特点进行综合分析,本文对传统混合包围盒碰撞检测算法进行改进,主要研究工作如下:(1)对基于双重结构的层次包围盒碰撞检测算法进行改
学位