基于无锚框网络的场景文本检测方法研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:zhao3785
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本检测是指从图像中定位出文本位置,该技术在图像检索、机器人导航、工业自动化和实时翻译等场景中有广泛使用,具有非常广阔的研究与应用价值。自然场景中文本的大小、排列方向和对比度等有很大差异,而且还受到噪声干扰、拍摄角度和光照变化等因素的影响,受这些因素影响,传统的文本检测方法对场景文本的检测效果较差,无法适用于复杂的场景文本检测。随着深度学习的兴起,基于深度学习的场景文本检测方法取得了重大突破,涌现出许多优秀的场景文本检测方法。但是当前大多数基于深度学习的文本检测方法仍然存在以下一些问题:在检测长文本时,会出现预测失败以及断裂的情况;存在严重的正负样本不均衡和尺度不敏感问题,会降低模型的训练效率与检测精度;在精度和速度方面无法取得平衡,例如部分方法精度很高,但是检测速度过慢,无法应用于实际生产环境。本文针对以上问题展开研究,结合最新的无锚框网络FCOS,提出了基于无锚框网络的场景文本检测方法。本文在FCOS基础上使用任意四边形替代矩形框作为网络输出,使检测器能够精确地检测文本边缘。本文使用Darknet-53作为主干网络,增强了基础特征提取的能力。本文对损失函数部分也做了改进,使用DR Loss作为文本分类损失函数,改善了正负样本不均衡问题。在位置回归损失方面,本文使用顶点回归的方式,直接计算预测区域与真值区域各自四个顶点的绝对差值。并且提出了对角线调节因子,能够使预测的检测框更贴近文本实例,实验表明,对角线调节因子提升了位置回归的精确度。本文还提出了符合任意四边形的中心度损失,中心度损失能降低远离中心点的低质量边界框的权重。为了继续提升模型的检测精度,本文提出了基于注意力机制与上下文提取的场景文本检测方法。本文引入CSP结构,使用CSPDarknet-53作为主干网络,进一步提升了主干网络的基础特征提取能力。受AC-FPN启发,本文使用了上下文提取模块(CEM),使特征融合更加充分。本文还引入了注意力机制,注意力机制能够突出重要特征,弱化无关信息对检测结果的干扰,消融实验表明该注意力机制能够大幅提升文本检测模型的精度。最后,本文在ICDAR2015、MSRA-TD500和ICDAR2013数据集上进行了实验与分析。本文方法在ICDAR2015数据集上的精确率为87.9%,召回率为83.1%,F值为85.4%,每秒可以检测8.7张图片。实验结果表明,本文提出的方法能够显著提高自然场景文本检测的精确率和召回率,具有较强的实用性。
其他文献
近年来,随着信息技术的不断发展,自然语言处理的研究逐渐转向自然语言理解的研究,机器阅读理解便在这个大背景下应运而生。机器阅读理解不仅仅是对文字的“感知”,更是对文字的“认知”。机器阅读理解任务要求机器理解上下文本信息后,准确地回答出相关的问题,其结果可以用来评估机器的阅读理解能力。通常情况下,该任务需要机器能够对文本中的单词进行词性标注和命名实体识别找出其中的实体信息,更深层的则是需要机器执行句法
为了实现“富民、兴边、强国、睦邻”的目标,2006年国家开始实施兴边富民行动。截止到现在,圆满完成了三个五年规划,使得边境地区经济社会得到巨大的发展。现利用统计数据对当前我国陆地边境地区发展现状进行统计分析,构建评价指标体系对9个边境省(区)、140个边境县(区、旗)经济社会发展程度进行评价,对于准确把握我国陆地边境地区发展态势,为谋划下一步工作,具有一定的现实意义。本文将对十三五期间兴边富民行动
多智能体强化学习领域的研究正在快速扩张,在多个领域中如机器人团队,资源管理,分布式控制,游戏,电子商务等均取得了瞩目成就,多智能体强化学习问题的研究往往涉及密集计算与智能体之间的相互关系,而经典强化学习算法领域内探索与利用的权衡问题,在多智能体领域中仍是一项挑战。本文通过对Stein梯度下降法(SVGD)理论技术的引入,为该项挑战提供有效的解决途径,并以车联网下的智能车辆调度为应用背景。本文结合提
随着互联网的日益发展,越来越多的用户通过微博等社交网络平台发表观点、参与热点事件的讨论。社交网络热点事件是指通过社交网络传播引起民众广泛关注并产生强烈反响的事件。在热点事件的传播过程中,通常会激起社会舆论、产生大规模的连锁反应,甚至危害社会的安全。用户作为事件传播中的主要参与者,是社交媒介的核心和主体,在热点事件的产生、演化和传播过程中发挥着重要的作用。因此如何准确有效地分析社交网络热点事件中的用
物理学科要培养学生的物理观念、科学思维、科学探究、科学态度与责任四大核心素养。物理概念是物理学科核心素养的基础,然而高中物理概念多、概念抽象、逻辑性强等特点,导致了物理概念和规律的难教和难学,尤其是物理抽象概念。因此探究促进高中物理抽象概念教学的研究非常重要。PHET仿真模拟(Physics Education Technology interactive simulation)主要是研究仿真模拟
大数据时代,推荐系统是帮助人们解决信息爆炸问题最有效的工具之一,但传统的推荐系统往往面临着数据稀疏和冷启动两大问题。近年来,社交平台的快速发展,使得各应用平台都产生了丰富的社交信息,因此有学者提出社会化推荐系统,在推荐系统中引入社交关系来提高推荐效果。虽然目前已经有许多研究工作取得了不错的成果,但多数研究都基于显式社交关系,而显式社交关系往往存在数据稀疏和噪音问题。为了弥补显式社交关系的不足,本文
与资源丰富语言相比,资源稀缺语言命名实体识别面临的最大困难是训练模型所需的语料尤其是人工标注语料的获取难度大、成本高,如何以低成本、高效率地识别资源稀缺语言的命名实体是目前资源稀缺语言命名实体识别的研究重点之一。本文研究如何从与资源稀缺语言文本相关的图片中获取与人名实体相关的信息,并将其应用于资源稀缺语言的人名识别任务中。本论文以藏文人名识别为例,具体工作如下:首先从与文本相关图片中抽取图片中的重
与基于插值或者重建的机器学习方法相比,深度学习在超分辨率(Super-Resolution,SR)任务上显示出其独特的优势。然而,人工设计一个性能优秀的超分辨率网络往往需要耗费大量的人力物力。除此之外,随着人工设计的神经网络越来越复杂,想要人工设计出一个表现不错的神经网络成为一个挑战。为了减少人工设计神经网络所花费的人力物力,神经网络架构搜索(Neural Architecture Search,
近年来,随着人工智能技术的不断革新,国家对各行各业越来越注重信息化的投入。自然语言处理作为文本信息化的一种重要方式,将其与司法文书相结合使得司法办公自动化必将成为大势所趋。本文主要研究的民事案件法律文本中命名实体识别任务,是司法领域信息化的基础工作之一,对后续的司法案件信息提取、案情辅助研判等一系列应用具有促进作用。本文在基于民事案件法律文书的命名实体识别研究中,完成了以下工作:1)构建司法领域命