基于特征融合和金字塔注意力的场景文本检测

来源 :大连交通大学 | 被引量 : 1次 | 上传用户:lvlianpeng2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网产品需求量不断增大,越来越多的方面需要用到图像中的文本信息。目前关于自然场景文本检测算法大多采用深度学习算法,其不足是普遍缺少特征级的精细化,导致原本设计良好的模型不能被充分利用。另外由于卷积运算基于局部感受野,需要经过多个卷积才能解决长效依赖问题。针对这两个问题,提出将特征融合和特征金字塔注意力模块应用到自然场景文本检测,以提高检测效果。本文主要工作如下:1.从深度卷积网、基于深度学习的目标检测框架、语义分割与实例分割以及现流行的自然场景文本检测算法这几个对场景文本检测相关方面进行分析与总结,为后续提出的基于特征融合的场景文本检测算法和基于特征金字塔注意力的场景文本检测算法的研究奠定理论基础。2.在基本特征提取网络(Pixel Link算法)的基础上设计并实现了特征融合模块。对于深度网络来说,较深层包含更多的语义信息,但是分辨率较低,对细节感知能力不强,而浅层包含更多的内容描述、位置和细节信息,但是语义信息较弱。特征融合可以使各层级的特征信息结合在一起,从而增加特征映射层的信息量,进一步提高性能。实验结果表明,相较于Pixel Link算法,基于特征融合的场景文本检测算法在ICDAR2015和ICDAR2013数据集上综合指标(F-measure)分别提升了0.36%和3.85%。3.在基本特征提取网络(Pixel Link算法)和特征融合的基础上设计并实现了特征金字塔注意力模块。采用注意力网络可以增大感受野的同时不提高计算力,而空间金字塔结构可利用不同的网格尺度或不同的扩张率融合多尺度的特征信息。特征金字塔注意力模块包含精细化金字塔网络分支、非线性变换分支以及全局平均池化分支。精细化金字塔网络分支采用从粗到细策略,在不增加计算力和参数的情况下使更高层具有更加丰富的特征。实验结果表明,相较于Pixel Link算法,基于特征融合和金字塔注意力的场景文本检测算法在ICDAR2015和ICDAR2013数据集上综合指标(F-measure)分别提升了2.91%和4.04%。
其他文献
坭兴陶作为历史悠久的传统材料,具备绿色天然、耐酸碱、泥质细腻易加工等优良特性,是制作饮食用具、家居用具等日用品的优质材料。随着时代的发展,坭兴陶日用产品发展遭遇瓶颈,部分生产企业脱离现代用户使用需求的盲目生产,知识产权意识淡薄导致产品同质化严重。现阶段,坭兴陶日用品在功能及形制上,已无法满足现代消费者日益丰富的多元化需求。时至今日,温控技术在日用陶瓷产品领域的运用日渐增多,以现代用户多元化需求为导
少数民族题材在工笔人物画的创作中具有一定的重要性,占据绘画领域中较大的比例,也是当代绘画创作研究的主要方向之一。中国传统工笔人物画在绘画技法精神和表现方面都具有无限可能,绮丽跳跃的颜色,精美丰富的纹饰,充分的满足了工笔人物画创作的装饰性需求,由此可见以少数民族为表现题材的工笔人物画必然会成为艺术长廊中最闪耀的一颗明珠。这篇论文是我在研究生期间,根据自己的学习与探究少数民族题材的工笔人物画创作体会与
随着国内外高校间的交流,高校实验中心逐渐作为对外连接的重要窗口。作为一份程序性文件,高校实验中心的“质量手册”定义了实验中心的质量管理体系。本翻译实践报告内容选取自天津大学现代连接技术实验中心《质量手册》,包括实验中心简介、组织、管理体系以及文件控制四条目录下的内容。天津大学现代连接技术实验中心《质量手册》属于信息型文本,规定实验中心的检测准则,提供检测标准,其特征在于客观地表达要传达的信息。首先
随着电机驱动技术的快速发展,高速电机在工业中得到了越来越广泛的应用,同时,对变频供电条件下高速电机能效水平要求也越来越高。高频供电时的谐波以及由此带来的损耗问题成为高速电机设计时关注的热点。本文针对这一问题,主要开展用于降低高速电机损耗的低谐波绕组设计研究,主要研究工作如下:1)分析了变频器供电带来的谐波特点及其对电机内部空间谐波的影响;并计算分析了电机内部空间和时间谐波的特点;介绍了基于时步有限
随着电力系统智能化的推进,作为电网安全稳定运行三大支柱之一的电力通信网络在电力系统中扮演着越来越重要的角色。电力通信网的安全运行和数据可靠传输直接影响到电力安全生产业务的有序开展,并会对电力系统资源的高效利用产生深远影响。为此,论文基于历史运行统计数据对电力通信网进行多业务风险评估具有重要的理论意义和实际价值。本文通过分析某省电力通信网的年度统计数据,归纳出其电力通信网中主要承载业务的分布情况和业
当前的市场和顾客要求半导体分立器件封装测试企业交付零缺陷的半导体分立器件,但是目前半导体分立器件制造企业的质量水平无法满足客户日益提高的质量要求。不论是在分立器
随着现代科技的飞速发展,社交媒体功能不断更新迭代,如Twitter,Facebook,微博等社交平台都支持用户发布多媒体信息。研究表明多数用户更倾向于选择利用图像与文本两种媒体进行信息发布,利用文字搭配情感图片,表达发送者情感情绪状态。因此,利用文本和图像的跨模态社交媒体数据进行情感分析,有利于如用户兴趣分析进而定向推荐,群体情感倾向分析进行舆情分析等,其研究成果具有潜在的应用前景。跨模态社交媒体
随着我国人口老龄化速度的不断加剧,失能、失智、独居、空巢以及高龄老年人日益增多。机构养老由于具有全天候照护服务、有效减轻老年人孤独感、更加安全等优势,逐渐成为了上述老年人群体安享晚年的首要选择。为了满足这一需求,近些年来,各地养老机构如雨后春笋般地发展了起来。但是快速发展的背后,专业养老护理员有效供给不足的问题却逐步显现了出来。青年专业养老护理员群体的出现显然有助于缓解这一现状。但是由于受到了种种
国内一些很具发展潜力的企业因国内A股市场对新上市企业的限制而选择美国上市,这些选择国外上市以获取当地资本市场融资、而主营业务收入来源于大陆的一类公司被称为中国概念
人们在以往的现实中感受过的事物在头脑记忆中的重现,称为“表象”或者“表征”,空间的环境和事物的表征称为“认知地图”。1948年Tolman首次提出认知地图的概念,也就是啮齿动物和人类拥有空间认知地图的能力这一概念。之后,认知地图概念被人们广泛接受,并且慢慢的成为心理学研究的热门问题之一。本研究在总结前人研究的基础上,采用了实验控制法,探讨了边界的局域空间特点是否对人们在头脑中建立起一个或者多个认知