【摘 要】
:
文本检测是一种利用相关算法提取图像中文本区域的技术,用以实现对自然场景下或电子版文档中文字的检测,其在场景解析,即时翻译等领域有着广泛应用,并在计算机视觉研究中扮演重要角色。文本检测分为基于机器学习的方法和基于深度学习的方法,与基于机器学习的方法相比,基于深度学习的方法能够不断的优化检测网络,在检测速度、精度和适应各种不同应用场景的能力方面有很大提升。但是,受到传统CNN网络、特征融合和文本形状复
论文部分内容阅读
文本检测是一种利用相关算法提取图像中文本区域的技术,用以实现对自然场景下或电子版文档中文字的检测,其在场景解析,即时翻译等领域有着广泛应用,并在计算机视觉研究中扮演重要角色。文本检测分为基于机器学习的方法和基于深度学习的方法,与基于机器学习的方法相比,基于深度学习的方法能够不断的优化检测网络,在检测速度、精度和适应各种不同应用场景的能力方面有很大提升。但是,受到传统CNN网络、特征融合和文本形状复杂等因素的影响,导致检测网络出现了文本特征保留能力弱、相邻文本特征判别能力弱、特征金字塔路径冗长减慢推理速度等问题。为此,本文提出了三种全新的文本检测网络,极大提高了文本检测的精度和速度,本文核心的工作思路如下:(1)提出了一种基于注意力机制与特征增强的文本检测网络。引入注意力机制模块提高特征提取网络对文本特征的保留能力,并根据文本特性对特征提取网络结构进行改进,通过将文本特征进行具象化分类处理与可形变卷积相结合,能够更精细的表征文本信息,从而获得更丰富的文本特征以减少信息的丢失。(2)设计了一种基于特征融合与权值映射的文本检测网络。引入条形池化和特征融合模块,利用高、低语义的融合特征进行非局部注意的细化以判别相邻文本的特征。引入权值映射模块,利用不同文本特征生成权值的唯一性,与对应特征金字塔每层特征相乘以缓解特征融合带来的混叠效应,从而提高文本检测网络判别相邻文本特征的能力。(3)探索出了一种基于Transformer网络与空洞解码器的文本检测网络。将无卷积的Transformer与文本检测网络结合,使用空洞解码器代替传统的金字塔结构,并通过实验调整网络结构和相应的数据参数以获得最佳的检测模型。与本文提出的前两种方法相比检测速度得到提升,与现有的文本检测方法相比整体性能更优。
其他文献
能控性问题一直是复杂网络研究的热点,其中,分析网络系统的结构能控性是研究中的一个重要分支,受到国内外学者的广泛关注。本文借助于图论、代数图论等理论知识对复杂网络的结构能控性问题进行了研究,主要内容如下:首先,将领导者与跟随者的概念引入复杂网络的结构能控性研究中,通过分析不同角色节点间的连边对网络结构能控性的影响对网络进行简化,并在此基础上从扩张和领导者不可达点两个角度,较为详细地探究了领导者确定后
在网络控制系统中,由于网络通道的存在往往会产生一些无法规避的网络问题,例如恶意攻击、数据包紊乱、以及数据丢包等。上述网络问题的存在会使网络控制系统的控制效果下降甚至导致整个系统崩溃。本文研究了在网络攻击、往返时间延迟、传感器故障下的非线性网络控制系统的输出跟踪控制问题。使用无模型自适应控制方法将系统动态线性化,针对相应网络问题提出相应的补偿机制,从而使系统达到期望的跟踪性能。具体研究内容如下:首先
区块链技术作为时下最为新兴的技术之一,为各个行业都带来了革新,其成果广泛应用于各个领域。随着区块链技术的蓬勃兴起,出现了大量区块链社交网络平台。这些区块链社交网络平台正在获得越来越多用户的青睐,成为社交网络发展的新方向。区块链社交网络独有的去中心化特性,以及激励机制、共识机制对其用户的社交行为造成了改变,使其影响力传播机制异于传统社交网络。而传统影响力最大化算法未考虑其特性,得到的影响力传播范围准
在科技发达的今天图像随处可见,但由于图像在获取、处理、传输等过程中存在机器设备使用不合理或处理方法不恰当等情况,导致图像出现一定程度的失真。在图像识别、视频点播、远程会议等应用图像或研究图像过程中,图像质量的好坏十分重要,直接决定用户的体验效果。因此,如何合理地评估图像的质量变得至关重要。与自然图像不同,屏幕内容图像包括文本和图片两个部分,但是现有的方法大多在一张图像上随机截取N个固定大小的块(p
随着密集型应用的发展,移动设备的计算能力和存储能力越发引起业界和学界的重视,移动边缘计算可有效提高移动设备的计算能力和存储能力,这就需要一种合理的计算卸载与协作调度方案。本文重点聚焦于移动边缘计算下计算卸载与协作调度的联合优化问题,并将其拆为两个问题,即基于时延结果为目的的计算卸载问题以及基于资源分配结果的协作调度问题。针对计算卸载问题,为了提高泛用性,现有研究主要从强化学习展开,但仍存在手工提取
机械臂系统具有代替人完成各种复杂的、精密的、危险的工作,提高劳动生产力等优点,被广泛地应用于各种工业场所。机械臂系统中存在的不确定性和外部干扰会对机械臂的位置跟踪精度产生影响,而如何克服系统中的不确定性和外部干扰,对于提高机械臂的位置跟踪精度具有重要的研究价值和意义。本文针对含有不确定性和外部干扰的机械臂系统,基于参数辨识、滑模控制、神经网络控制、不确定性和干扰估计器、自抗扰控制等方法设计了解决不
随着计算机视觉技术的日益发展,相关成果已经广泛应用于如医疗、交通、国防等多个领域,但在雾霾等恶劣天气的影响下,成像设备获取到的图像质量不佳,进而影响相关技术应用的性能。因此,图像去雾成为了一个至关重要的问题,也是现在研究的热门领域之一。由于当前去雾数据集均为合成有雾图像,与真实有雾图像的差异较大,一定程度上限制了深度学习去雾算法的性能。为解决真实有雾图像无法应用到网络训练的问题,本文基于半监督学习
多相图像分割的变分模型是典型的多变量优化问题,其非线性、非凸性、非光滑特性导致局部极值问题突出,模型解依赖于初始条件和惩罚参数,实际应用困难。通过箱函数、广义余面积公式、千层饼公式等可从理论上将原问题转化为全局凸优化问题,但随着分割相数的增加,箱函数的维数急剧增加,导致了计算复杂、效率低下。针对于以上问题,本文对基于一个标量多标签函数划分多个区域的多相图像分割变分模型-LLT模型改进,主要创新点如
COVID-19问题并没有随着时间和季节的更替而消失,尽管大多数国家在抗击疫情和疫情防控等方面取得了显著成效,但公众对新型冠状病毒的认识还远远不够。在COVID-19大流行期间,基于位置的游戏(LBGs)行业受到了冲击。虽然围绕提供科学信息以预防COVID-19和改善个人护理相关严肃游戏的研究得到了很好的发展,但是没有研究表明LBG可用于帮助预防COVID-19感染。因此,本研究针对COVID-1
随着中国社会主义现代化建设和工业化的发展,社会对煤炭的需求也大幅度增加,目前我国工业使用的锅炉主要形式是循环流化床锅炉,燃煤锅炉是重要的热能动力设备,在工业领域广泛应用。但是工厂中的燃煤锅炉在使用过程中会产生大量污染物,包括二氧化硫、二氧化碳、氮氧化物以及烟尘等,这不仅会对生态环境造成污染,也威胁着人民群众的身体健康,不符合我国倡导的可持续发展理念,提高燃煤锅炉的燃烧效率和降低氮氧化物排放量成为首