基于注意力机制和超像素的图像实例分割方法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:f805616873
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像实例分割是一种非常重要的数字图像处理技术。近年在深度学习技术的推动下,该技术得到了飞速的发展,但仍然存在一些缺陷。在这个论文中,我们主要讨论两种改善优化图像实例分割结果的方法。第一个方法,是基于注意力机制的优化方法。图像实例分割方法虽然多种多样,但是对于小尺寸物体的实例分割还多存在着遗漏或误分割的情况。我们通过改进处理流程,将注意力机制应用于图像实例分割的处理流程中,以优化对于小尺寸物体的实例分割效果。该处理流程是,在执行图像实例分割的特征提取阶段,应用注意力机制,不再平等地泛泛地对待所有位置的像素,而是将权重倾斜给更加重要的位置;然后经过注意力机制过滤、优化处理过的特征,输入到后面的检测框回归和掩膜生成;最终得到更加全面精准的实例分割结果。第二个方法,是一个简单有效的基于超像素的后处理方法。很多图像实例分割方法都普遍存在对于大尺寸物体分割效果过于粗糙的现象。基于“图像实例分割将图片分割成富含语义信息但缺乏纹理一致性的一个个区域,而超像素分割将图片分割成具有良好的纹理一致性但缺乏语义信息的一个个像素集合”的观察,我们通过设计一个后处理方法,将超像素结合到图像实例分割的处理流程中,以优化图像实例分割的结果。该处理流程是,先对图片调用某一个图像实例分割方法(如Mask R-CNN),生成初步的预测实例掩膜;然后利用图像的超像素提供辅助信息来修改预测的掩膜;最终得到更加精细的图像实例分割结果。该方法无需参与训练,但能够有效地细化图像实例预测掩膜。我们在MS-COCO数据集上进行测试,并在当前流行的多个网络结构上展开实验,其结果有力地证实了我们的方法对于改善图像实例分割结果的有效性。
其他文献
ZnO纳米线因其优越的物理化学特性,被广泛地用于各个领域。ZnO纳米线的尺寸、形状等几何结构是影响物理化学特性的重要参数,如何准确地对ZnO纳米线SEM图像进行识别、分割,最终实现测量,对于构建纳米材料的微观特征与宏观物理化学特性之间的联系有着重要的意义,尤其能够推动对其物理机理的理论认识。然而目前所使用的测量方法主要都是人工手动测量,该方法效率低,成本高,无法实现大规模测量。深度学习自2006年
旁路攻击对加密算法的安全性造成了很大的威胁,在安全领域受到研究者广大的关注和研究。旁路信息的采集作为旁路攻击的第一步,是后续分析和攻击的基础。传统的异步采集方法降低了旁路信息的信噪比,同时还使得后续无法对齐旁路信息,对旁路信息的攻击造成了极大的困难。因此,大幅提升旁路信息的采集效率,并研究基于旁路信息的旁路攻击方法是十分重要的。本文主要的研究内容和研究成果如下:1、针对传统的异步旁路信息失调问题,
随着网络的不断发展,互联网应用层出不穷,日益增加的用户让互联网逐渐成为了资源丰富的数据库。本文针对大量的互联网数据,提出了短文本关系分类的基本框架。针对数据中存在的噪音问题,本文分别提出了重要实体词典的扩展方法,并尝试应用一般性中文文本错误的纠错模型,对网络文本首先进行了预处理。针对标注数据缺少的问题,本文提出了结合少量人工标注数据所学习到的基本规律,引入外部知识来进行辅助判断的算法,从而得以构造
近十年来,微型扑翼飞行器逐渐成为飞行器乃至机器人领域中一个具有广泛前景的研究方向,但其实时视觉系统的开发在世界范围内尚未形成完备的理论与技术路线,在算法设计、设备选型等方面还有大量创新的空间。本文以上海交通大学自主研发的微型扑翼飞行器为载体,从实时电子稳像去抖、人像检测、避障检测以及硬件模块设计等方面完成实时视觉系统设计。首先,针对微型扑翼飞行器高频抖动的特点,本文提出一种基于卡尔曼与低通混合滤波
随着互联网时代的来临,人们能从媒体获取的信息越来越多。信息抽取这一学科正是研究如何从海量的文本数据中抽取出关键的信息,因此成为了很多学者关注的课题。本论文所提出的两个工作分别是属于信息抽取的两个分支:开放式信息抽取和命名实体识别。对于开放式信息抽取,本文分别从模型和数据使用上有所创新。在模型上,本文提出了基于短语级别的开放式信息系统并且在与其它系统的比较中取得了最好的成绩。在数据上,本文提出了将置
本篇文章探索的主题是人类的语义处理过程。人类的语义处理是人脑神经元之间通过神经冲动与神经突触构建的网络形成的生物物理过程。它可以将人类通过不同感官接收到的语言文字表达形式与认知系统中对事物概念的理解和含义联系起来。语义处理的生物基础是神经元间的协同激活状态(神经表示)。通过大脑成像方法测量神经活动可以用于推断大脑的神经表示。生物编码实验是对对大脑的内在活动进行建模探索的一种方法。它可以通过建立人为
毛纺织行业是纺织行业的重要组成部分,是生产高品质、创造高价值、体现高品位时尚生活的消费品工业,也是蕴含历史文化,融合现代科技,涉及牧工贸三产联动的民生产业,在加快人民生活品质提升,满足人民美好生活需要,促进国民经济健康发展中发挥着重要作用。"十四五"时期是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的第一个五年。根据
期刊
随着近年移动设备搭载的摄像头个数持续增加,CMOS图像传感器的市场情况持续火热。虽然目前的图像处理技术已经有了很大的提高,但由于一些客观原因的存在,总会使得采集的原始图片中存在一些坏点,极大地影响了图片质量。因此本课题将对CMOS图像传感器的坏点校正问题展开研究。本文基于图像传感器中坏点的特性,采用先进行静态坏点校正再进行动态坏点校正的方式,对图片中可能存在的坏点进行处理。其中静态坏点校正处理3×
正电子发射断层成像技术(Positron Emission Tomography,PET)是目前分子水平上进行功能显像的最先进的医学影像技术,适用于脑部成像,心血管疾病,肿瘤等疾病的早期预警与诊断,在国内外受到高度关注和广泛应用。PET系统中事件处理是前端电路与图像重建的重要桥梁,直接影响成像效率和重建图像质量。脑部PET系统事件处理主要包含解码、延时校准以及符合等环节。对于PET系统,采集过程将
随着深度网络在各图片任务上取得巨大成功,越来越多研究将重心放在更为复杂的视频理解任务上。动作识别任务的目的是对视频中所有人的动作进行时空位置的捕捉以及动作的识别,是重要的视频理解任务之一。动作识别课题具有重大的科研以及应用价值。动作识别能够广泛地用于监控摄像头、自动驾驶、平台视频审核和商业化、人类行为学研究等领域。本文基于视频中存在的多种交互关系对动作识别课题进行研究。交互关系泛指视频中人和环境的