基于时空注意机制的弱监督目标检测分割关键技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:suzhixie66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,图像和视频已经成为数字媒体信息的重要载体。如何从图像与视频中提取有效的语义信息成为计算机视觉领域的研究热点。目前大多基于深度学习的方法通常利用有大量明确任务标注的数据进行训练和学习,但是由于某些特定和专业场景缺少任务相关的精细标注数据,难以学习高质量视觉信息。本文重点研究弱监督问题中不完全监督和不确切监督问题,即训练数据只具备粗粒度标签和只有部分类别训练数据具备标签。实际应用中,通常存在以下两种场景:(1)图像和视频只具有类别标签;(2)图像和视频只具有离线部分的标签。这两种复杂的场景常常导致模型难以建立数据与弱标签之间的直接联系且缺乏在线适配目标外观变化的能力。启发于人类视觉注意机制,本文重点研究将时空注意机制和弱监督信息进行有效结合,从而提升模型在弱监督场景下的目标检测与分割能力。首先,面向只有图像类别标签场景,针对难以建立数据与目标之间的直接联系问题,提出了一种基于强化学习精细擦除策略的弱监督图像目标定位检测方法。现有深度学习算法从大量候选框中迭代选取目标,会产生大量冗余计算且不符合人类视觉选择注意机理。因此,本部分通过强化学习算法构建拟人的注意力机制来学习输入数据、弱监督标记、目标三者间的隐含关系。从弱监督标记数据驱动的神经网络模型产生的特征图以及显著目标区域对于分类置信度的贡献出发,迭代关注显著物体区域,选择最显著且对于分类置信度贡献大的区域作为视觉注意选择区域。本部分提出的方法能有效地模仿人类的视觉机理,在两个公开数据集上的实验结果表明,在显著提升检测效率的同时,能够达到与其他深度学习方法相当的效果。其次,面向只有视频类别标签场景,针对难以感知高质量时空信息与弱标记语义信息问题,提出了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法。现有方法没能用学习的方法结合时空信息生成高质量伪标签且没能有效利用类别标签。因此,本部分通过从多源显著性知识中学习时空显著区域及榜样样本适配,进行弱监督分割网络的学习。本部分构建了多源显著模块和时空榜样适配模块,利用视觉显著性先验提取时域与空域之间的共性关系,通过深度神经网络充分利用类别信息结合协同语义进行分割任务。在三个视频目标分割公开数据集上的实验结果表明,本部分提出的方法不仅能模仿人类多源认知的融合过程,而且有效提升了算法的泛化性能分割精度。第三,面向只有视频离线掩码标注场景,针对缺乏视频序列在线指导信息问题,提出一种基于局部-全局记忆机制的非监督视频目标分割方法。现有方法大多使用光流或递归神经网络的方法,但在复杂场景下无法保证光流质量且递归神经网络难以优化。因此,本部分同时考虑局部和全局记忆机制,同时获得可靠的短时与长时的视频帧间相关性信息,从而实现非监督视频目标分割。全局和局部记忆模块分别通过协同互注意机制和图卷积网络以宏观到微观的范式完成非监督视频分割任务。在三个视频目标分割公开数据集上结果表明本部分所提出的局部-全局记忆机制能够有效提升算法的分割精度。最后,面向只有图像和视频离线掩码标注场景,针对难以通过网络底层感知高层特征问题,提出一种基于自我反馈机制的目标分割算法。现有算法通过设计不同前向网络连接方式提取空间语意信息。但由于前向网络的局限性,中间层的特征没有很好地向任务驱动的方向量化,导致前背景混淆问题。因此,本部分启发于视觉反馈机制,提出一种掩码指导反馈神经网络,通过聚焦-反馈-重估计的过程,协同优化聚焦与反馈网络。该网络通过高层网络生成的掩码信息生成全局目标特征,随后通过该特征与原图像中间特征进行特征传播,生成反馈重估计分割结果。本部分的掩码指导反馈神经网络应用在非监督视频分割、视频显著性检测、图像显著性检测、图像语义分割任务上都能够有效提升基准的精度,并在各个任务上达到了目前最好的效果。
其他文献
2016年,美国激光干涉引力波天文台(LIGO)首次直接探测到黑洞合并产生的引力波信号,为人类打开了一扇全新的宇宙观测之窗。目前Advanced LIGO(第二代引力波探测器)的主要探测范围为10Hz~10k Hz,探测灵敏度为10-23/√Hz,仅可实现对可见宇宙中的一小部分事件进行探测。未来引力波探测器将致力于探测超大质量双黑洞聚合、双中子星聚合、恒星塌缩、超新星演化产生的引力波,这就需要进一
学位
复杂网络的可控性是网络化系统保持稳定运行、实现各类功能的基本保障,其相关研究一直是网络科学领域的热门课题。在早期,大量研究工作聚焦于如何选取恰当的驱动节点使得系统在外部信号的影响下实现任意状态间的转移,即实现完全状态可控。近些年,随着大数据、5G、人工智能等信息技术的发展,针对复杂网络的攻击门槛越来越低,导致基于网络的蓄意攻击事件频繁发生,系统的可控性随之面临严重威胁,相关研究也引起广泛关注。如何
学位
在未来的一段时间内,火力发电仍然是我国电力生产的主要形式。大型火力发电机组一旦发生故障会造成严重不利影响。大型火力发电机组系统结构复杂、多源异构参数众多,使得传统故障预测方法难以精准地识别异常工况、诊断异常成因和预测异常演化趋势。目前,大型火力发电机组已经初步具备了底层运行数据全覆盖采集能力,在这些数据中蕴含着大量的与大型火力发电机组健康状态相关的信息。本文利用基于时序特征的机器学习方法,以火力发
学位
饲用益生菌广泛应用于动物生产过程中,动物肉品质决定经济价值。益生菌改善动物肉质地和风味,从而提高肉品质。本文对常见饲用益生菌对动物肉质物理指标、化学指标和风味物质的影响进行综述,从增强营养物质代谢、提高抗氧化能力、优化肠道菌群和提高胃饥饿素(Ghrelin)的分泌四个方面探讨益生菌改善动物肉品质的作用机制,为研究益生菌对动物肉质的影响提供参考。
期刊
随着5G技术的蓬勃发展,工业过程的集成化程度日益升高,所采集得到的数据也呈现出了复杂的关系。而人工智能技术的迅猛发展既为数据驱动建模提供了新思路和新方法,也为智能制造创造了新机遇。本文结合已有的深度学习模型,针对工业过程中数据关系复杂的问题,提出了基于深度概率隐变量模型的软测量建模方法。根据工业过程中数据处理的具体要求,本文重点解决了以下几个问题:(1)针对工业数据的强非线性问题,提出了非线性概率
学位
气液两相流广泛存在于各种工业过程中,与国民经济息息相关,对气液两相流的状态监测和参数检测十分重要。但由于气液两相流复杂的特性,相关的监测/检测工作目前仍然是研究领域内的难题。电学层析成像(Electrical tomography,简称ET)技术是监测气液两相流和进行相关参数检测的有效手段。其中,电阻层析成像(Electrical resistance tomography,简称ERT)技术凭借无
学位
光催化是一种利用可再生太阳能实现光能向化学能转化的绿色可持续发展技术。近年来,纳米光催化剂作为光催化技术的核心在水分解、二氧化碳还原、氮气固定、挥发性有机化合物去除以及水处理等领域迅速发展,为利用可再生太阳能替代传统的不可再生的化石燃料开阔了新思路,成为了解决能源和环境危机的有效方法。然而,目前纳米光催化剂的效率较低,距离工业化生产的光催化效率期望值10%还相距甚远。所以,合理构建高效纳米光催化剂
学位
为提升结肠癌患者的临床治疗和预后效果,针对结直肠癌的早期精准诊断及化疗损伤鉴别至关重要,而这方面的新型检测技术具有重要研究价值和应用前景。在目前的传统临床肿瘤诊断手段中,组织活检存在有创检测的弊端,影像学和内镜学检测存在早期诊断假阴率高的不足,而血液检查又存在对患者化疗轻度损伤检测的特异性不足的问题,这些都会对肿瘤患者的治疗与预后造成不利影响。而太赫兹光谱技术因其安全无损、无标记且无需反应底物等优
学位
在布尔(控制)网络系统研究的过程中,无论是网络系统的外部噪声、或者是控制器在执行过程中出现的延迟、数据丢失等扰动都会对网络系统的稳定性产生影响。为了更好地将系统模型和实际应用相结合,本文考虑了状态反馈控制器、黎曼采样控制器、勒贝格采样控制器、牵制控制器这四类基础且重要的控制器来实现网络系统的随机稳定性。另外,在控制器的设计过程中,保证控制目标的可实现性、节约控制成本,提高控制效率是控制器设计过程中
学位
针对如何快速、精准地检索门户网站信息的问题,设计和实现基于Python语言的聚焦网络爬虫。首先分析聚焦网络爬虫的爬取数据流程,明确爬虫的基本原理;在爬取数据流程的基础上,设计聚焦网络爬虫的通用结构模型;最后,利用Python语言库实现聚焦网络爬虫,并以广东省政府采购网的招标信息的爬取为实例验证该聚焦网络爬虫的可用性。
期刊