结合辅助信息的视觉注意力机制的研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:sntengwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉注意力机制起源于视网膜的生物学机理,当生物观察具有多个目标的复杂场景时,在每一时刻视网膜会选取一小部分目标进行集中,并将有限的处理资源进行分配。因为注意力机制具有选择性和聚焦性两大特性,被广泛应用于计算机视觉领域中。图像自动标注是近几年流行起来的在计算机视觉领域具有代表性的应用,即对指定的图片进行自动标注产生图像的文字叙述标签。由于在自然场景下的图片大多数是多标签图片,即在图片中含有多个目标,所以对具有语义特征的多标签图像进行自动标注更加具有普适性意义。标注系统在每一次迭代的最后产生一个对应于图片中某一目标的标签,所以在每一次系统迭代过程中特征的选择和资源的分配对标注效果有很大影响。本文以多标签标注结果为量化指标,基于深度神经网络搭建视觉注意力模型架构,对视觉注意力机制进行研究,完善视觉注意力机制。视觉注意力机制现有的两大问题是分化能力不足与聚焦能力不足。分化能力是注意力模型在不同时刻注意到不同的目标的能力,即在前一时刻注意到某一目标,并将处理资源分配给它,我们希望在下一时刻可以将注意力转向其它目标,减少上一时刻目标的对本次的影响,从而将资源的合理分配最大化。本文通过引入历史信息来增加视觉注意力模型的分化能力,即将之前若干次的迭代结果作为本次模型的输入,并在本次迭代对历史信息进行一定规则的删减,从而得到更好的效果。聚焦能力是注意力模型在每次迭代过程中将处理资源集中分配在同一个目标的能力,即在当前时刻希望模型将注意力集中在一个目标上,忽略其他的目标及杂乱背景的干扰,将处理资源集中于一个目标。本文通过引入显著性信息来增加模型的聚焦能力。显著性信息是通过图像底层特征的提取,并通过不同像素点之前的对比,对一副图片提取显著性的区域,并将显著性信息作为先验知识加入到注意力模型中。在注意力模型选取注意力区域时,通过参考输入的显著性信息,更为准确的选取当前的注意力区域,并分配处理资源。本文主要对视觉注意力机制进行研究,并基于深度神经网络对其进行实现。通过加入历史信息和显著性信息提高视觉注意力模型的分化能力和聚焦能力,并通过大量的对比实验验证本文提出的方法的有效性。
其他文献
关于非线性系统的控制问题一直是研究的热点。随着科学技术的发展,近代的控制对象的运动轨迹是大范围,模型也大多是多变量、多阶段的,并且人们对系统精度的要求也越来越高。对于这类非线性系统的控制问题,就必须采用一些非线性控制方法,其中有线性反馈控制,自适应控制,鲁棒控制,神经网络控制等方法。自适应控制是人们针对被控系统内部结构和参数的不确定性以及存在外部干扰的情况下产生的,在常规控制理论的基础上,按照一定
资本主义社会中很多学者已经意识到资产阶级与工人阶级之间存在着诸多矛盾。但出于资本的累计,资本主义国家的福利保障制度愈加完善,工人阶级内部开始逐渐产生一定程度的分化
随着我国海洋信息通信技术的不断发展,水下通信安全的重要性日益突出。为了满足海洋通信系统对更高安全性的要求,光通信系统中物理层加密技术受到了广泛的关注。作为一种新型的物理层加密技术:量子噪声流加密(QNSC)具有兼容现有光纤设备且能实现高速、长距离传输的特点,在海底光缆系统、水下无线光通信等领域具有广阔的应用前景。本论文对不同类型水下光通信系统的安全隐患、加密方式以及量子噪声流加密技术进行了调研。并
可注射水凝胶是指在外界环境刺激下能发生溶胶-凝胶转变、形成亲水的三维网络结构的凝胶体系。其具有良好的生物相容性和智能响应性,广泛用于药物输送系统、伤口愈合材料和组织工程等方面。可注射水凝胶作为抗肿瘤药物载体时,能在肿瘤部位持续高剂量释放药物,提高抗肿瘤效果,并避免药物非特异性分布,减少对正常组织的损害作用。但是载药可注射水凝胶在体内会吸附生物大分子蛋白质或者微生物,在植入部位因胶原纤维增生阻碍负载
数学学习习惯是学生学习数学过程中的一种行为习惯,在学生学习过程中发挥着重要的作用,而且在当前教育制度下,考试成绩是衡量学生自身能力的重要标准。良好的学习习惯一定程度上帮助学生适应高中繁重的学业任务,积极的面对高中的各种考试,而没有良好的学习习惯,将会对学生造成一定的影响。而本文将围绕高中生的数学学习习惯、数学成绩的关系进行研究。主要包括以下两个问题:高中生的数学学习习惯、以及各维度的数学学习习惯与
图谱是图论与线性代数的交叉理论.图谱理论的研究主要结合图论和组合数学的理论,利用代数的方法与技巧来研究图的谱及其结构性质.计算图的谱就像确定图的特征多项式一样,是图谱理论中基础而有意义性的一项工作.图的谱以及特征多项式可以帮助我们研究图的一些参数性质,例如色数、连通度、匹配数等.图矩阵的特征值不仅能反映图的参数性质,而且能提供与图能量相关的信息.图的规范Laplacian特征值就是其中之一.此外,
“要不”在现代汉语共时层面上有非词的跨层结构和词并存的现象。词层面的“要不”可以区分为连词和副词两类。连词的次范畴类别包括表示“否则”的“要不_1”和表示“或者”的“要不_2”,副词的次范畴类别包括表示“建议”的“要不_3”和表示“难怪”的“要不_4”。“要不”是在语义动因的促动下,通过句法分析和韵律调整,最终实现词汇化。“不然”可以区分为形容词和连词两大类。形容词的次范畴类别包括表示情形、状况的
在我们日常生活中,经常会出现拥挤堵塞的情况,比如电话占线、银行服务、交通堵塞等情况,排队论就是解决这类问题的有效工具。在排队论的研究进程中,有关的休假系统和重试系统已经被广泛研究,本文讨论了不同排队策略下的重试和工作休假排队模型。本文首先介绍了带有重试和工作休假的排队模型的背景和研究意义,并简单举例描述了研究中涉及到的重试、工作休假、轨道搜索、止步、反馈和碰撞的排队规则。然后利用马尔可夫过程和矩阵
癌症是由于细胞丧失正常调控并发生异常生长而产生的一种疾病,癌症的产生、发展、转移和恶化都具有复杂的生物过程。根据癌细胞在生物体内的作用位置可以将癌症分为很多种类,根据分子标志物以及病人临床表现又可以将同一癌症分为不同子类型。癌症子类型的研究不仅可以全面的了解癌症,也可以为患者提供更精准的治疗方案。通过基因表达等单一数据类型来研究癌症子类型通常无法捕获癌症分子表型的全部复杂性。随着高通量测序技术的发
目前以及在未来较长的一段时期内,由于信息技术的不断更新和完善,交通信息采集、传输和发布设备及相关技术将日趋先进,交通管理部门所面临的将不再是如何获得实时的交通数据问题,而是如何从大量静态和动态交通数据中提取出能够更加直观、准确、有效地反映交通状态,或是解决交通问题的信息,以满足决策需要。由于单一监测数据信息的片面、不完整、错误率高、不确定性大、信息量小的特点,交管部门一般采用并行处理多个前端系统数