图像与视频中文字与特定对象检测算法研究

来源 :中国科学院大学(中国科学院计算机科学与技术学院) | 被引量 : 0次 | 上传用户:wanqadscb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,各种智能拍摄终端不断得到普及,对应的拍摄方式和内容形式也越来越多元化。通过这些设备记录的信息大多是以图像和视频的形式存在。图像和视频中的文字及核心对象有助于相关信息的有效检索和理解,因此研究者们对其进行精确定位是有意义。本文概述了图像与视频中文字与特定对象的检测问题的研究现状,并以此为基础利用先进的深度学习方法围绕当前存在的一些难点和痛点问题进行了深入研究。论文的主要贡献如下所示:1、针对文字对象的相对尺度差异大、长宽比例悬殊及相邻文字难分割的问题,本文提出了一种基于由内向外监督网络的场景文字检测方法。具体来说,本文设计了一个分层监督模块,它由一个并行非对称卷积单元和一个跳层融合结构组成。在分层监督模块内部,本文引入了层次化的监督机制来有效地捕获具有不同长宽比的文字。在分层监督模块外部,本文采用不同尺度的分层监督模块堆叠的方式来精确地检测不同大小的文字对象。此外,本文还采用位置敏感的分割方法来增强难文字对象的表达和相邻文字对象的区分。2、针对文字对象的多尺度匹配和相关数据集缺乏的问题,本文提出了一种基于尺度残差学习网络的场景文字检测算法来逐步缓解文字尺度变化带来的问题。该算法可以通过消减特征融合残差和尺度转换残差的方式来缩小算法的输出结果和真实标注框之间的差异。通过在深度卷积网络上堆叠多尺度特征图层,该算法可以利用尺度残差学习策略来累积文字语义信息和纹理细节,进而优化文字目标的特征表达。此外,本文建立了一个大规模场景文字检测数据集,它包含具有复杂场景的36,000张图片和具有不同尺度的270,783个文字对象,推动了自然场景文字研究。3、针对视频文字的不同呈现形式的问题,本文提出了一种基于时域一致性表达网络的视频文字检测算法,它能同时检测视频中所有类型的文字对象。该算法由一个空间文字检测器和一个时域融合过滤器组成。首先,本文探讨了三种不同的学习策略来训练基于卷积神经网络的空间文字检测方法,使该检测方法能够在不知道文字类型的情况下同时检测出各种文字对象。然后,本文提出了一种面积优先的非极大值抑制方法,并结合多个约束条件去除冗余包围框。最后,本文提出的时域融合过滤器利用文字对象的空间位置和成分特征,并融合连续帧的检测结果,进一步去除错误的检测框。4、针对视频文字的时空域检测的问题,本文提出了一种基于采样分治网络的时空域视频文字检测算法,提高了检测效率和性能。具体来说,该算法是由一个采样恢复模型和一个分治模型组成的。采样恢复模型可以利用文字对象在时域序列中的时间冗余特性来提高视频文字的检测效率。分治模型可以在时空域同时定位文字对象。此外,本文构建了一个极具挑战的视频叠加文字数据集,它包含57,070个视频帧,并且这些视频帧拥有真实的时空域标注信息。5、针对航拍场景中小目标和复杂背景的问题,本文提出了一种基于引导注意力网络的航拍场景对象检测计数算法。与已有的依赖无监督注意力机制的方法不同,本文提出一个弱监督背景注意力模块,它可以有效地抑制背景信息并且增强前景目标的特征表达。为了让网络能够同时学习到目标的全局和局部信息,本文提出了一个前景注意力模块来准确地定位目标。此外,本文也设计了一种针对航拍场景的数据增强策略,它可以使算法对不同天气条件更加鲁棒。6、针对零售场景内同一类别商品对象严重遮挡的问题,本文提出了一个新的对象级别的检测计数任务以及一种基于级联检测计数网络的零售场景对象检测计数算法。该任务要求算法同时预测出商品对象的类别、包围框、以及包围框内的实例个数。然而,当前没有一个数据集可以满足该任务,因此本文构建了一个大规模的商品对象的检测计数数据集。为了评价算法在此数据集上的性能优劣,本文设计了一个综合检测计数的评价标准。为了方便不同算法进行公平对比和评估,本文将此数据集划分为训练集和测试集,为研究者们提供一个目标检测计数任务的基准数据集。此外,本文提出了一个级联的检测计数网络作为基准算法,该算法可以采用端到端的方式进行多任务训练,并可以同时预测出商品对象的类别、包围框、以及包围框的实例个数。
其他文献
位于丝绸之路经济带帕米尔高原的萨雷兹湖,是世界上已知最大的高原堰塞湖,多年来水位保持着波动上涨的趋势,其坝体崩解导致湖水下泄将会给下游中亚多国人民带来巨大灾难。萨雷兹湖水量变化特征及其驱动因素缺乏具体研究。本文采用Landsat影像、ICEsat及Cryosat-2测高数据、DEM数据开展了萨雷兹湖水资源及流域冰川变化监测研究,结合气象等数据通过多因素相关分析探索了萨雷兹湖水资源变化的驱动因素。主
湖泊水位是水循环和气候变化的重要指示因子。雷达测高技术作为水位观测的替代手段,近年来被广泛应用于湖泊水位监测中,尤其是无水文观测的湖泊或跨国界湖泊。传统脉冲有限雷达高度计由于其脚印点较大,在观测中小型湖泊时容易受到陆地噪声信号的干扰。随着多普勒延迟技术与开环跟踪技术在Cryosat-2、Jason-2/3、Sentinel-3A等新型雷达高度计中的应用,中小型湖泊水位高精度反演成为可能。本文即针对
非洲锰矿资源丰富,储量、资源量排名在世界上均列第一。非洲锰矿成因类型种类多样,有前寒武系条带状铁建造(BIF)型、海相沉积型、陆相(三角洲湖相)沉积型、与岩浆作用有关的热液型锰矿床等,其中以前寒武系条带状铁建造(BIF)型和海相沉积型最为重要,其资源量分别占非洲锰资源量的61% 和35.9%。非洲锰矿资源广泛分布于南非卡普瓦尔克拉通盆地北部边缘、刚果克拉通盆地西北部边缘、西非克拉通盆地边缘及阿特拉
作为信息表达和交流的重要工具,文字被广泛地应用于人们的日常生活和工作中。同时,手写也是每个人在社会中赖以生存的技能。随着计算机的发展和普及,手写文字识别作为一种高级的人机交互方式在近几十年来引起了人们的广泛关注。虽然研究者们在手写识别领域已经取得了大量突破性的进展,但是基于深度学习的手写识别算法仍然有很大的改进空间,因此如何设计更为准确高效的手写识别算法是本文的核心研究内容。另外,随着传感技术的发
伴随着计算机算力和互联网数据量不断地增长,深度学习在计算机视觉、自然语言处理、语音识别等多个领域取得了巨大的成功,但缺乏可解释性严重限制了其在现实任务尤其是安全敏感任务中的广泛应用。而统计学习模型具有较好的解释性,计算量小,且相较于深度学习有更高的鲁棒性,但统计学模型在稀疏数据上比如图像识别任务中的性能远远低于深度学习模型,导致使用统计学习模型的人越来越少。当深度学习模型的性能触及瓶颈的时候,深度
随着计算机技术以及数字成像设备的发展,通过图像处理软件对数字图像进行操作的门槛也变得越来越低,导致我们很难区分该图像是否经过了处理。而且,如果一些经过处理的图片被应用于不正当的地方,那么就会给社会带来很大的危害。图像对比度增强操作是实现图像模糊和润饰的一个常用操作,当图像经过拼接或者复制粘贴之后,在边缘一般会产生视觉或者统计信息上的畸变,而图像对比度增强就是用来消除这种畸变的。图像对比度增强作为图
近年来,遥感影像的数据量越来越大,准确地对遥感影像进行自动化分析成为了迫切需要解决的问题。图像语义分割旨在将输入图像分割成互不重叠的区域并对每个区域打上不同的语义标签,从而得到输入图像的细粒度解析结果。使用图像语义分割技术自动地对遥感影像中的不同区域进行精确划分,有助于重大自然灾害地区受灾道路、桥梁及房屋等目标的准确定位,从而为下一步的灾害救援提供指导。基于深度学习技术,本文主要以提高分割精度和加
当前,心理健康问题凸显,对个体的心理特征进行及时有效的识别具有重大意义。然而传统的心理测量方法具有侵扰性、低效率等特点,无法满足当前社会对心理健康服务的需求。近年来,随着互联网、智能传感器技术的发展,各行各业都产生了海量的人类行为数据。这些数据可以捕获个体细粒度的行为特征,为各个领域的研究都提供了新的视角。基于此,本研究试图探究行为时间序列数据与心理特征的关系,并进一步实现个体心理特征的自动化识别
改革开放,百卉吐艳。特别是国家基础建设突飞猛进,大中小型的公路更是纵横交错、遍布各地。在建设过程中,为了改善民生,保证人们的生命财产安全,建设质量就更为重要,为了达到相关规范要求,避免给未来带来隐患,建设相关单位就要配套一系列的管理措施来保证工程质量。高速公路作为连接城市的纽带,具有重要的价值传动,其建设过程的质量控制,就起到不可估量的作用,并且这一环节也就成为工程管理成败的关键。在研究铁本高速公
乡村振兴涉及农村经济、政治和文化等方面的全面振兴,需要各类主体的共同参与。高校共青团是党联系青年的桥梁和纽带,在推动乡村振兴过程中肩负着重要的使命。马克思主义共享理论、党的历代领导人"三农"思想和推动乡村振兴实践是高校共青团服务乡村振兴的理论根基。以G校共青团"一工一坊"美育共建共享品牌为例,总结凝练G校共青团美育服务乡村振兴的有效经验,即"环境营造、机制保障、美育服务、资源共享",进一步探索新时