基于深度学习的显著目标检测模型可扩展性研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:mlj1234567890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字媒体的发展和信息传播方式的多元化,图像逐渐成为了人们接收信息的重要媒介之一。人们在生活工作中会接触大量的图像数据,但往往只关心其中的少量信息。因此,从图像中高效快速地提取吸引人类注意力的信息是极其重要且有意义的。显著目标检测(Salient Object Detection,SOD)研究旨在从图像中快速定位和提取最吸引人类注意力的目标和区域,以帮助人们快速获取有用信息,是计算机视觉中一个重要的研究起点。受深度学习技术的影响,SOD研究在计算机视觉领域发展迅速,在有效性和效率方面都取得了显著进展。然而,现有SOD数据集的训练样本数量有限与深度学习模型高度依赖数据的特征之间的矛盾仍是一个不容忽视的问题,这增加了SOD模型对现有数据集过度拟合的风险,削弱了其泛化能力。为评估在现有数据集上表现良好的SOD模型在真实视觉世界中的性能,本文提出使用最大差异(Maximum Discrepancy,MAD)竞争的模型诊断方法从另一个视角审视SOD模型的泛化性,并进一步指出SOD模型开发和改进的方向。此外,本文还在上述研究的基础上提出一种新的基于不确定性感知的显著目标检测模型。具体研究内容如下:(1)为评估现有SOD模型在真实视觉世界中的性能,本文提出使用MAD竞争的模型诊断方法来度量SOD模型的泛化性。首先,构建一个大型测试数据集(将近380,000张图像),并通过MAD竞争方法从数据集中挖掘出最具鉴别力的代表性样本集(超过3,500张图像)。然后,进行小规模的主观实验,收集代表性样本集的显著目标标签和属性标签,进一步验证和分析模型。最后,通过深入分析实验结果,阐明现有SOD模型的泛化性和优缺点,指出SOD模型开发和改进的方向。(2)基于上述研究,为解决现有SOD模型在预测显著目标轮廓附近像素的显著概率时存在的不确定性问题,本文提出一种新的基于不确定性感知的显著目标检测模型。所提模型将内部轮廓不确定性图、显著图和外部轮廓不确定性图共同作为监督信号,以引导网络关注显著目标中的像素,并将其部分注意力转移到显著目标轮廓附近的显著和非显著像素上,使得模型能够更好地区分显著目标轮廓附近的“不确定”像素。此外,模型中还引入了一种新的特征交互模块,在解码阶段聚合内部轮廓不确定性特征、显著性特征和外部轮廓不确定性特征,以提高模型对“不确定”像素的处理能力。实验结果表明,以上两种操作都有助于获取更精确的显著目标和轮廓。
其他文献
近年来,深度学习已成为包括医疗健康领域在内的不同应用中的重要研究方法,尤其在心电信号异常检测中,其作用更加凸显。然而,现有的基于深度学习的心电信号分类模型存在网络模型深度大和过拟合的问题,且分类模型的准确率有待提高。为此,本研究结合深度学习,通过引入不同形式的注意力机制进行优化,对心电信号分类方法展开研究,并利用MIT-BIH数据集对其分别进行训练和验证。本文主要研究内容如下:1)心电信号预处理。
学位
算法技术重构了广告业的运作逻辑,微信记录了用户多维度的数据,以用户数据作为推送依据的微信朋友圈广告能实现广告的精准投放。00后青年群体成长于移动互联网时代,但却是各个代际中对广告态度最为消极,对网络隐私的关注程度更高的群体。为何会产生这种现象,哪些因素影响了00后青年的广告态度,是否00后青年群体对隐私的关注与他们的广告态度之间存在关系,成为了值得探讨的问题。本文以传统的认知——情感——行为三阶段
学位
人脑是人体内非常复杂又重要的器官,研究人脑的功能是十分有意义的。视觉信息作为人类认知主要的信息来源,其运行机理一直是脑科学的研究热点。功能磁共振成像(functional Magnetic Resonance Imaging,f MRI)是目前观测人脑活动最主要的研究工具,可以对人脑以较高的时空分辨率进行三维无损成像。针对人脑视觉信息的解码问题,本文主要借助于图卷积网络模型,对人脑在静态图像刺激下
学位
现如今,我国人均国民经济水平与日俱增,人民的生活水平也不断提高。与此同时,人们对汽车的需求量也不断增长,而汽车持有量的大幅增长所带来的首要严峻问题就是交通拥堵,这也对当前的城市发展造成了很大的影响。车辆和行人在道路上必定要经过交叉路口,而交叉路口能够使他们顺畅地通过对整个城市交通的发展也有着长足深远的意义。交通信号控制所针对的对象就是交叉路口,同时,交叉路口也是城市通行能力能否提高的关键所在。目前
学位
随着自然科学的发展和全球信息化的推进,生物医学领域进入了大数据时代。尤其是机器学习方法出现之后,其强大的特征提取能力极大地推动了生物医学数据的研究进程。根据研究变量个数的不同,生物医学数据可分为单变量生物医学数据和多变量生物医学数据。在各类多变量生物医学数据中,脑机接口(Brain-Computer Interface,BCI)技术的研究有助于视听觉受损和肢体运动能力受限的残疾人恢复正常,功能磁共
学位
随着数字图像处理技术和无线通信技术得到高速发展,短视频应用和流媒体平台逐渐兴起,使得人们对视频影像质量的要求日益提高,在许多应用领域中已不容忽视。但是,由于通过升级硬件来提高设备分辨率的代价和局限性较大,数码监测产品常常会在一定程度上牺牲分辨率,从而确保记录装置能够长时间地、稳定地工作,并具有适当的帧率来处理动态情况。在遥感方面,也有相似的情形,比如,在空间、频谱、时间分辨率等方面,都有一定的折中
学位
自从中本聪提出比特币和区块链概念以来,区块链技术得到了广泛关注和发展。区块链具有的防篡改、可追溯和完全去中心化等优点使其具有广阔应用场景,目前已广泛应用于多个领域,如金融、医疗、供应链、政府监管、资产管理等。但是,从事务处理角度看,区块链系统事务处理低下严重阻碍了区块链技术广泛应用。相比于传统数据库系统,区块链系统事务执行缺少并发控制,节点间存在大量事务冗余执行,系统框架上缺乏事务并行执行的设计。
学位
信息化技术的发展给远程医疗和医疗图像共享带来极大的便利,然而,医疗图像作为一种特殊且私密性较强的数字化影像,在公共网络上传输时难免被截获或篡改。患者医疗图像一旦泄露或者遭到恶意的利用和操纵,很容易导致一系列社会性问题。因此,在医疗健康领域,加强医疗图像的安全共享是必不可少的一项工作。区块链技术作为一种新兴的分布式账本,因其去中心化、去信任、不可篡改和可以溯源等特征,已被应用于医疗图像的内容保护与安
学位
随着人工智能的发展,场景几何信息的获取,例如深度图像,对高级计算机视觉任务有重要的作用,其被广泛应用于虚拟现实、无人驾驶等领域。目前主流的深度图像获取方法有两种,一种是通过立体匹配算法生成深度图像,这种方法对低纹理和遮挡区域的匹配效果不佳,另一种是通过To F传感器等设备主动感知深度值,这种方法受限于设备成本,获得的深度图像分辨率低且带有噪声。因此,为满足热门视觉任务需求,深度图像增强需求极为迫切
学位
心律失常所导致的高致死率和高致残率并发症给家庭和社会带来了沉重的负担。如何有效预防和诊断心律失常已成为当前亟待解决的问题。现有的诸多方法中,对人体心电图(Electrocardiogram,ECG)进行实时动态自动监测是一种最为有效预防和诊断心律失常的手段。在进行ECG信号自动监测时,心律失常识别准确度是最为重要的问题之一,而ECG信号特征提取是提高其识别准确度的关键步骤。然而,现有的ECG信号特
学位