基于图像理解层面的多特征融合网络设计

来源 :浙江大学 | 被引量 : 0次 | 上传用户:undercall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2012年Alex Net[1]结构在ILSVRC比赛中展现出绝对优势以来,卷积神经网络(Con-volutional Neural Network,CNN)成为机器学习领域备受关注的研究对象。随着在NVIDIA等公司推动研发下的计算机运算能力的不断增强,越来越多的大型卷积神经网络如VG-GNet[2],Inception[3],Res Net[4],Dense Net[5],SENet[6]凭借其复杂的网络结构与强大的特征表达能力,在图像识别、目标检测、自然语言处理等人工智能(Artificial Intelligence,AI)任务上取得了巨大成功。虽然基于深度学习的图像算法技术相对已经比较成熟,但在实际应用场景中,仍然会由于图像背景复杂、目标物体轮廓模糊、不同类别目标纹理差异不明显等干扰因素的影响,导致卷积神经网络提取的全局特征不足以很好地表达图像信息,从而产生判别错误、无法判别等问题。且随着越来越多人工智能应用的落地,智能产品在人们生活中广泛普及,单一的图像AI技术越来越无法满足人工智能交互产品领域的需求。本文从实际工程项目背景及需求出发,选择图像理解层面的图像分类、目标检测和视觉问答这三个任务作为基本对象层层递进来进行多特征融合网络的研究和设计。本文的主要工作如下:(1)针对图像分类任务,基于对通过卷积神经网络所提取的图像全局特征表达能力仍有所欠缺这一情况的考虑,本文从大米分类这一项工程的项目背景和实际需求出发,在卷积神经网络中引入手工设计的局部特征描述算子,设计了一种融合图像传统局部特征的多特征融合分类网络,通过实验比对证实了该方法的有效性,并将该多特征融合分类网络成功应用至实际工程项目的落地上。(2)针对目标检测任务,本文从实际工程应用背景出发,面向目标检测任务进行多特征融合网络的研究。基于对图像分类任务的多特征融合网络的研究,本文将这一思路应用至目标检测领域,设计了一种在图像深度全局特征上融合图像传统局部特征的多特征融合目标检测网络。并通过实验设计证实了该方法的有效性,本方法在目标检测领域的2个通用数据集上均有不错的表现。同时,我们还将该研究算法与多项工程项目相结合,利用迁移学习[7]的办法,将该算法成功部署至实际应用。(3)针对视觉问答任务,基于视觉特征与文本特征无法很好融合这一问题的考虑,本文面向视觉问答任务,基于预训练的办法,提出一种在BERT[8]网络结构中引入融合了图像全局特征与图像局部特征的视觉信息的模型算法,使得视觉与文本这两种跨模态信息能够较好地被融合表达。同时,本文还在该多特征融合视觉问答网络的视觉特征中融合以目标对象的坐标位置信息。我们在视觉问答领域最为通用的VQA v2.0数据集上,对本文所提出的面向视觉与文本这两种跨模态信息的多特征融合网络进行了实验评估与测试,相较于目前其他的主流方法,我们的方法得到了更好的结果,充分证明了这一方法的有效性。
其他文献
工业数据是工业企业的重要资产,有效利用工厂的生产、管理和运营数据可以帮助企业更好地实现精细化管理,但目前流程工业企业信息系统种类繁多、数据类型多种多样,多元数据管理不规范、数据分析门槛高,无法真正实现对数据价值的挖掘。本文以对象化建模技术、数据融合加工技术、大数据分析与挖掘技术为关键技术,结合流程工业企业数据特点以及行业知识,采用对象化建模技术对流程工业不同类型数据进行对象化编排,通过数据融合加工
在自然语言处理中,命名实体识别是许多任务的上游,它为诸如信息检索、智能对话和阅读理解等任务打下了根基。虽然近年来深度学习模型在实体识别这个任务上的进展表明,该任务似乎已经不是一个难点,但是由于深度学习模型对大规模标注数据的依赖导致了命名实体识别任务也通常需要海量数据才能有好的效果。这种缺陷在许多场景下会成为一个致命的缺点,比如在医疗领域,由于隐私保护的原因,我们很难获取到大规模的标注数据。本文针对
大数据的兴起促进了数据规模的突飞猛进。数据库中往往存储了大量高价值的数据,以往用户想要查询数据库内容时,需要编写结构化查询语言SQL,再与数据库交互,这给非专业领域的普通用户带来了不便。而且对于一些复杂的查询条件,手工编写SQL时容易出错。如何通过自然语言自由地查询数据库成为新的研究热点。据此,本文提出了基于显式关系编码和抽象语法树解码的Text2SQL系统,可以端到端的将自然语言转换为SQL序列
智能音箱以人工智能为基础,以语音代替点击作为主要的人机交互方式,是新一代的互联网硬件产品。随着智能音箱用户量的急剧增加,企业获取了大量的用户与音箱的交互数据。本文基于海量用户与音箱的交互数据来构建智能音箱用户画像,并介绍用户画像的系统架构及应用。智能音箱用户画像的构建首先是对用户相关属性进行分析,根据业务需求将智能音箱用户画像属性分为用户自然属性、生命周期属性、行为指标属性和用户技能属性。对属性进
目前,以太坊作为区块链技术2.0的实现,具有去中心化、不可篡改等特点,其应用开始遍布各行各业。智能合约可以运行在以太坊上并在一定条件下自动触发,但是已有的智能合约研究都集中在安全问题上,对于编程友好性的研究很少。现有的智能合约编写环境良莠不齐,大概分为两种,一种是直接操作命令行,这样的方式操作复杂且容易出错,另一种是通过图形界面开发,但是已有的平台无法达到高效易用的要求。这些问题无形中拔高了区块链
随着制造业与数字化不断融合,汽车制造行业对数字化、信息化的需求越来越旺盛,但是一些汽车制造行业现有的制造执行系统(MES)仍然存在着不少的弊端。为了解决企业中现有MES系统存在的问题,本文设计并实现了动力总成关键指标目视化系统,并运用微服务架构解决了传统单体架构中存在的耦合度高、灵活性低、维护困难等问题。本文通过微服务的思想将系统拆分为大屏展示、看板展示、数据填报、系统管理、主数据维护5个功能模块
随着手机市场竞争的加剧,各品牌越来越重视手机质量,赢得消费者口碑,占据更大的市场份额。手机外观清洁与检测作为手机封装前的工序,对最终流向市场的手机有着非常重要的筛选作用,防止外观脏污或者有缺陷不良的手机流入市场,影响用户体验。现有手机清洁方式主要依靠人工手动擦拭,耗费时间长,清洁效果不一;其它清洁装置多为单一产品的擦拭,去污能力有限;使用无尘布的方式易造成布屑二次污染,且材料无法循环使用,成本较高
三磷酸腺苷结合盒式转运蛋白(ATP binding cassette, ABC)是目前发现的最大的膜蛋白家族之一,广泛分布于从细菌到人类等各种生物体中,每个成员都含有两个高度保守的ATP结合区(ATP binding cassette),可通过结合ATP发生二聚化水解释放能量,并形成一个跨膜通道从而实现多种底物的跨膜转运。可转运的底物包括:无机离子无机酸、氨基酸、脂类、糖类、多肽、各类药物、细胞代
人脸识别技术在当前已经得到广泛应用,在一些限定场景下已较为成熟。然而,该技术仍然存在一些缺陷,主要表现为目前大部分人脸识别产品对姿态有着较高的要求,需要用户配合主动调整自身姿态至正面才能获得较好的识别效果,这极大限制了该技术在更大应用场景进行推广。因此,多视角人脸识别技术在许多非用户配合的应用场景具有重要意义。针对上述问题,本文展开了多视角人脸识别技术的探索,研究并实现了一种基于三维可形变模型的人
目前,大屏幕拼接器已经广泛应用于各种场景,如展览、新闻、车站、交通及军事指挥等。本文分析了国内外大屏幕拼接器的目前状况、应用场景以及发展趋势,并根据当前大屏幕拼接器的性能问题,确立了本论文的主要研究内容。在大屏拼接器的视频传输能力、资源使用效率等关键性能上,本文分析了拼接器业务板之间的数据传输带宽、缩放效率以及缓存带宽利用率等关键技术,提出了一种基于FPGA平台的逻辑优化设计方案。和传统的大屏拼接