计算机视觉注意力机制建模研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:jackli2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为提升卷积神经网络的视觉表达能力,现有主流方法主要通过增加网络深度、宽度等方式来建模学习网络更好的性能,但这些方法大多以巨大的计算复杂度作为代价,并且对性能的提升也已到了瓶颈阶段。研究者通过对人类视觉系统进行观察与分析,发现其视觉注意力机制能够有选择地关注图像中的目标对象,极大地提升了其处理视觉信息的能力。因此,研究如何将视觉注意力机制融入到卷积神经网络的设计中,是提升其视觉表达能力的新方法之一。本文主要对计算机视觉注意力机制进行建模研究,分别从时域空间与频域空间两种维度构建双维度的视觉注意力机制模型,以捕获多样性与全局性的视觉语义信息,从而学习建模更加准确的注意力权重。本文主要贡献如下:(1)提出了一种基于池化方法的双维度视觉注意力模型。首先,在通道维度,同时使用全局最大池化和全局平均池化以获取多样性的空间维度信息,然后输入共享局部通道网络以重新学习通道间的权重分配;其次,在空间维度,将平均池化分别作用在宽和高两个空间维度以获取全局的视野信息,从而编码更加准确的空间位置注意力;最后,串行顺序融合得到注意力图,并将其与输入特征图相乘,以准确地进行自适应的特征表达。实验结果表明,在CIFAR-100数据集上,与主流的视觉注意力模型SENet、CBAM、ECA,BAM和TANet相比,Top-1准确率分别提升0.87%、0.48%、0.17%、0.43%和0.90%。进一步的可视化实验结果表明,提出的模型能准确地聚焦图像中的主要目标对象。(2)提出了一种基于频域方法的多频谱视觉注意力模型。通过将图像变换到频域空间内进行分析,发现平均池化等价于离散余弦变换后低频信号分量的表示。因此,为了获取其它频域信号分量的信息,以实现对图像中多样性语义信息的准确表达,本文改进了上一阶段提出的模型,通过在通道与空间注意力模块中分别融入多种频域信号分量,建模学习了更加准确的视觉注意力权重。消融实验表明,适当地增加模型对多种频域信号分量的捕获,能明显提升模型的性能。此外,数值实验结果表明,在CIFAR-100数据集上,相较于VGG、Res Net-50、Res Ne Xt-50及Res Ne Xt-101,提出的模型Top-1正确率分别提升2.56%、3.06%、1.73%、1.24%;在Pascal VOC 2012数据集上,相较于Retina Net和Fater-RCNN模型,提出的模型AP50与m AP分别提升3.6%、2.11%与3.44%、2.05%。
其他文献
非线性演化方程是一类非常重要的数学物理模型,可用于描述许许多多的自然现象。随着人们对自然界探索和研究的不断深入,新的非线性方程源源不断地被发现和提出,因此,非线性演化方程研究的重要性不言而喻。计算机科学的飞速发展,为符号计算的研究提供了强有力的技术支持,而符号计算的蓬勃发展,大大提升了人们的计算能力。近年来,人们对非线性演化方程的研究也逐步从低维向高维拓展和深入。本文旨在借助于符号计算平台Mapl
学位
近年来,生态保护与经济发展之间的矛盾越来越得到高度重视,政策导向也越来越强调生态环境和国民经济的协调发展,绿色创新作为化解经济发展与资源环境矛盾的有效手段,将成为新时代经济社会高质量发展的重要助力。绿色创新的重要践行主体是企业,近年来,越来越多的研究开始关注高管团队对企业绿色创新的影响。高管是企业绿色创新行为的直接决策主体,高管的背景特征会造就其不同的认知水平和行为偏好,从而使得高管做出的绿色创新
学位
南北朝是中国佛教艺术发展的第一个高峰,出现了众多大规模的佛教活动,佛教造像随之兴起。南朝在中国佛教发展史上无疑有着极其重要的地位,北魏孝文帝改革后,南朝文化艺术北上,对北方地区影响很大。南朝中心地区造像数量不多,现存的造像大多出土于四川成都及成都周边地区,故常以四川造像窥南朝造像全貌。四川南朝背屏式石制佛教造像共有37例,纪年造像全部归属于南朝齐梁时期,根据造像形式以及南朝其它纪年造像风格可将其分
学位
杨树(Populus L.)是木本植物中的模式物种之一,有着速生丰产的优秀品质。维管系统是在树的机械支持、物质运输和信号转导中起着重要的作用。维管形成层向内发育成木质部向外发育成韧皮部。影响维管发育的因素有很多,其中植物激素和次生代谢物质是其中重要的组成部分。植物激素包括生长素、细胞分裂素、脱落酸、乙烯等。次生代谢物质则包括酚类、多肽等,其中多肽是本研究中最为关注的。CEPP多肽家族是一种末端保守
学位
为帮助汉语学习者跨越“写什么”的障碍,训练学生的汉语表达能力,研究者使用文字和图片两种写作提示帮助中级汉语学习者生成写作内容,训练学习者的汉语书面表达技能。本研究以来自韩国的两位汉语水平相近的学习者为研究对象,主要采用有声思维法、访谈法和观察法研究探讨了初学汉语记叙文写作的韩国中级汉语学习者在两种提示方式下的写作认知行为和过程。首先,依据本研究对认知行为概念的界定和描述,借助Nvivo12对写作者
学位
在制造业领域,大型复杂整体结构件和难切削材料拉伸件应用与日俱增,广泛应用于航空航天、交通运输、精密传动等方面。U71Mn材料形成的长条形工件因其硬度大、强度高的特点,主要用于高速重载交通领域。工件经过长时间的使用,其表面会形成剥离掉块、压溃、波磨等损伤,目前机械铣磨的解决方式存在加工后表面质量差、工作环境污染严重、成本高等缺点。而移动式电解加工技术具有加工后表面光整、表面质量好、环境污染小等特点,
学位
相比设计特征进行模板匹配的早期目标检测算法,深度学习算法可以自动学习特征从而极大提升目标检测的速度和精度,同时还将研究人员从困难低效的手工设计特征工作中解放了出来。随着深度学习技术的不断发展,神经网络的性能得到不断提升,而为了达成更丰富的表达能力,神经网络的复杂度也在逐步提高,这背后计算机硬件技术的进步使得训练更复杂的神经网络成为可能,但无法忽视的是对复杂神经网络结构的设计再次成为一个困难低效的事
学位
肌纤维的类型与组成是影响猪肉品质的重要因素。研究表明,肌肉的食用特性(嫩度、风味、多汁性)与肌纤维的直径、数目以及肌纤维类型有着密切的联系。为了深入研究肌纤维与肉质之间的关系,本文对377头“壮乡黑猪”(广西晨康力食品股份有限公司的商业品牌)的背最长肌肌纤维进行了的组织学特性分析,测定获得了肌纤维的周长、面积、长径和短径等数据,并分析了肌纤维特性与肉质性状之间的关系。基于实验室前期e QTL(ex
学位
本文以现代汉语中的粘状动词为研究对象,首先对粘状动词进行了定义,并提出了粘状动词的判定方法,以《现代汉语词典》(第7版)中所收录的动词为检索范围,共得到粘状动词353个。现代汉语中的粘状动词在语义上具有一定的类型性,主要可划分为表达义、帮助义、关联义、阻碍义、给予义、存在义、增加义、对待义共八种。粘状动词具有以双音节粘状动词为主、以述宾结构居多、以书面语体占优势的特点。在粘状动词的粘着性上,本文从
学位
近年来,在我国社会经济迅速发展过程中,农业经济的作用与价值日渐凸显,因此农业经济发展也受到了更多的关注与重视。从乡村振兴视域来看,农业经济发展一方面需要注重经济效益,另一方面要注重生态效益。因此,研究与推动生态农业经济发展,真正实现农业产业可持续发展,促进乡村振兴势在必行。基于此,文章结合乡村振兴视域下的生态农业发展意义、必要性及问题,着重分析发展对策,包括完善激励机制,鼓励农民积极参与;提高技术
期刊