多模态场景中统计图问答的算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:meishan802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计图作为日常生活和工作中常用的数据载体,通过图像的形式能够传输数据的内容、占比、走势等信息。近年来,在统计图问答任务上不断涌现出各类基于深度学习的算法,并取得了不错的效果,但仍旧存在一些问题和局限。因此,本文致力于统计图问答任务的算法研究,将任务划分为不同子任务模块,针对不同子任务模块的特性及研究现状提出解决方案,并结合各模块的工作提出新的算法模型框架解决统计图问答任务。本文的研究工作可以概括如下:(1)针对目前大部分工作依赖大型预训练网络的现状,同时抓准场景任务下低层和高层图像特征缺一不可的特性,本文提出了基于反卷积操作的图像编码器算法模型,提取更丰富的统计图特征。具体来说,这个新的图像编码器算法模型应用反卷积操作融合低层和高层图像特征,能够将关系网络模型在两个开源数据集上的准确率都提升5%左右。此外,它同样能够被用于其他的算法模型。(2)针对原本关系网络中存在的关系特征庞大、特征冗余等问题,本文提出亲和力驱动的关系配对机制,同时结合基于反卷积操作的图像编码器模型提出解决统计图问答的亲和力机制驱动的关系网络。其效果超越了大多主流的算法模型,在DVQA数据集上的准确率更是比其中最高的LEAF-Net模型高出超过6%,并且得益于亲和力驱动的关系配对机制,关系特征的数量减少将近一半。(3)针对主流的应用注意力机制的工作不能充分利用多模态信息之间的关联的问题,本文提出基于Transformer算法框架的多模态融合推理网络。其核心思想是在每一层的迭代中捕捉文本单词同图像特征之间的关系。其效果超越其他基于注意力机制的模型,在两个数据集上的准确率比其中最高的LEAF-Net模型分别高出约2%和4%,甚至在FigureQA数据集上超过亲和力机制驱动的关系网络约1%。
其他文献
我国海洋资源充足,海洋水产品营养丰富,具有很高的商业价值,水产养殖行业发展迅速。水产养殖越来越需要更好的养殖策略来提高生产质量和效率。大规模育种和高质量的养殖,需要一种快速高通量的测量技术来提供数据支持。海洋科学研究的相关领域也需要测量鱼虾的一些形态参数。因此,本文选取对虾为研究对象,使用计算机视觉技术测量对虾的形态参数。围绕从对虾正面图像和侧面图像进行测量的目标,具体研究内容如下:首先,经过两次
学位
共振拉曼光谱是一种有效提高拉曼信号强度的表征技术,当激发光波长与目标分子的电子吸收能级匹配时,目标分子的某些振动模式的拉曼信号强度会呈现指数型的增强,我们便可以从拉曼谱图中获得更多的分子信息。由于共振拉曼光谱在可见光区和紫外光区实现对痕量物质高灵敏度的检测上存在显著差别,本论文将分别介绍在这两个波长区域开展仪器搭建和检测研究工作。对于可见光区的共振拉曼光谱,其增强倍数相对较低且往往伴随着强烈的荧光
学位
目的:研究老北京水果~1品牌的发展对策。方法:从品种资源分布、特色文化属性、保护恢复情况、品牌登记背书4个方面分析老北京水果发展现状和存在的问题。结果:当前存在部分品种恢复有难度、协同联动发展机制有待完善、品牌建设服务能力有待提升、品牌特色内涵挖掘有待深入、品牌宣传推介力度有待加强5方面问题。结论:从强化品牌创建引领、加强品牌创新联动、挖掘保育优质资源、开展果园提升改造、延展品牌宣展形式、畅通销售
期刊
最近,对于纯文本数据的文本摘要技术已经取得了巨大的突破,但仍然存在对结构化信息忽略的问题。有相当部分的数据是带有结构化信息的文本,在某些领域,合理地利用结构化信息对于改进文本摘要的质量至关重要。为此,本学位论文在两个领域探讨融合结构化信息以改进文本摘要的效果,包括:面向推文的实时事件摘要中提高摘要完整性和基于抽象语法树提高代码摘要质量。首先研究了面向推文的实时事件摘要问题。推特文本中包含了时间信息
学位
在街道设计回归人本主义的背景下,街道界面连续性和场所性重新引起人们的关注。文章首先综述了现阶段对街道界面连续性的研究;其次,以慕尼黑为例,总结了其内城商业步行街的形成、发展和完善;再次,运用最大切面法对慕尼黑内城商业步行街及其他六条典型步行街进行界面密度量化研究,并归纳出街廓尺度、街道宽度与界面密度的关系;最后,从街区、街道和界面三个层面提出了商业步行街界面连续性导控策略,以期推动城市商业街建设作
期刊
随着三维模型数量呈海量式增长,迫切需要简单快捷而又准确高效的检索系统来管理三维模型。基于草图的三维模型检索方式不仅具有出色的用户友好性,也满足当前各行各业快节奏的生产需求。然而,草图与三维模型之间巨大的跨模态差异,给相似性度量匹配与检索造成了较大的困难。另外,由于草图线条扭曲、内容抽象,导致特征信息少、挖掘难度大。本文致力于研究如何有效地解决这两大难题,采用以深度学习方法为基础,构建了两种不同的方
学位
传统的药物研发周期非常长,通常需要投入巨资研发。使用计算机辅助药物发现可以提高研发效率并有效降低研发成本,引起了广泛关注并吸引众多学者进行相关研究。药物靶标相互作用预测是计算机辅助药物发现的一个重要研究领域。药物靶标相互作用预测所涉及的数据具有噪声多、维度高和稀疏的特点,矩阵分解方法常被用以预测未知或缺失的数据,能很好应对具有上述特点的数据。因此,本文基于矩阵分解从以下几个方面展开对药物靶标相互作
学位
纹理滤波是一种底层的图像处理任务,它的主要操作是保留突出的结构,去掉振荡纹理。研究这一问题的关键是找到图层间正确的边界来分离结构和纹理。传统的过滤方法在超参数调节上会花费大量的时间,深度学习方法则需要依赖高质量的数据集。本文针对研究中出现的问题提出了两种方案来研究利用生成对抗网络(GAN)进行纹理滤波。方案一提出一种半监督的纹理滤波方法,利用有限的标记数据和大量的非标记数据训练GAN。在训练阶段为
学位
近年来,随着“智慧城市”理念的推行,人们愈发关注城市公交系统的运营效率问题。移动通信技术和大数据技术的迅猛发展为乘客和公交系统交互创造了条件,弹性公交系统是结合了公交系统与上述两种技术的一项创新型公交系统,该系统可以动态地调整公车行驶路线、调度车辆来满足乘客请求,在有效缓解交通压力、节省能源消耗的同时保证乘客乘车的舒适度,其出现反映了城市公交系统朝灵活性和便捷性发展的趋势。传统公交系统中设置的固定
学位
为了保障IT服务的稳定运行,由人工智能与运维结合的智能运维近年来引起关注。其中两项核心任务为预测与异常检测。预测是基于时间序列估计出下一状态值。异常检测是基于时间序列判断当前状态值是否异常。当前二者的主要挑战是:在现有方法中被分开处理,且无监督场景下异常会干扰模型,同时精度较高的深度学习在计算资源有限时难以应用。因此,研究面向IT运维时序数据的预测与异常检测有重要意义。基于上述分析,论文提出以下两
学位