基于边界点的不规则自然场景文本端到端识别研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:play11200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对图像中的文字进行提取和识别一直是计算机视觉中一个非常重要的课题,在图像理解、图像检索、自动驾驶等领域有广泛应用。随着深度学习在各个领域的广泛应用,基于深度学习的文字检测和识别算法拥有远超传统方法的性能和效率,逐渐成为该领域的主流。目前很多研究中文字检测和文字识别是作为两个独立的任务,但两者关系十分密切,相互联系并且相互促进,将检测和识别任务融合的端到端识别也逐渐成为一个重要研究方向。本文对不规则文本端到端识别任务进行研究,基于边界点的表示方法提出了两种端到端识别方案:一种方案检测器使用多阶段框架,模型拥有较高的性能;另一种方案中检测器使用单阶段框架,模型的性能与效率拥有较好的均衡。本文首先提出了基于边界点的文字表示方法,该表示方法能够精准、高效地描述不规则文本,同时也有助于不规则文本的识别。由于不规则文本的形状尺度多变,本文使用一个多阶段框架的文本边界点检测器,用于获取文本边界点,然后使用任意形状采样器采样特征,由序列识别器完成识别任务。得益于模型的端到端训练,检测和识别任务的精度均有所提升,模型总体效率更高。和近期的不规则文本端到端识别器相比,本文提出的方法在多个数据集上取得了最好的性能,验证了本文提出的边界点表示和端到端模型的可靠性。为了进一步提升端到端模型的整体效率,本文对边界点检测器和识别器进行优化,提出一个无锚框单阶段边界点检测器,该检测器基于全卷积网络,直接回归文字的边界点,效率大幅提升。通过本文提出的轻量边界点修正器,实现了边界点准确度的提升,从而改善端到端识别的性能。本文的端到端模型在拥有较好的性能同时效率大幅提升,证明了本文方法的有效性。本文提出的方法在多方向文本数据集ICDAR2013、ICDAR2015和不规则文本数据集Total Text、CTW1500均取得了优异的结果,并且在部分指标上取得了当前最好的性能,表明了端到端识别模型的优越性,同时也验证了本文提出方法的有效性。
其他文献
为保护选择性股权回购可能损害被排除回购股东的利益,应强调股东平等原则并保护全体股东对公司持续经营的信赖。为此,应引入选择性股权回购正当性评价的实质审查标准,包括区别对待股东的理由正当、回购股份估值公平、回购不损害全体股东对公司持续经营信赖;可以在选择性回购时的股东会一致决、排除被回购后的股东特别多数决或者其他股东回购加入请求权等方案中选择其一,完善选择性回购时的特殊决策机制。中国应在公司法的立法层
在氘-氚(D-T)磁约束聚变反应堆装置中,3.52Me V的反应产物alpha粒子经过慢化和热化之后将变成氦灰,其不可避免地存在于燃烧等离子体中。如果氦灰在等离子体芯部聚集,将引起辐射增强和燃料离子稀释,使得聚变等离子体温度和聚变功率下降,严重时甚至会诱发等离子体大破裂,危害聚变堆装置的安全运行。为了未来反应堆的高效和安全运行,必须控制芯部氦灰的浓度。目前普遍认为微观湍流是引起包括杂质在内的带电粒
修边是汽车零件成形过程中的关键工序,直接决定了汽车零件的成形质量,因此修边镶块的设计在整个模具设计中占有非常重要的地位。然而由于修边工艺线数量多、形状复杂,导致修边镶块的种类和数量繁多,而传统的手工设计方式存在重复度高,标准化程度和设计效率低下的缺点,并且过度依赖于个人经验,无法满足企业对于修边镶块快速设计的需求。因此为了减少依赖经验,缩短模具设计周期,开发一套标准化和专业化的修边镶块智能化设计系
ZnAl2O4基微波介质陶瓷由于其优异的微波介电性能、良好的力学性能及低热膨胀系数,是制备5G透镜天线的理想材料。然而,传统成型工艺难以满足5G微波器件对高精度、低功耗、复杂结构的要求。本文以ZnAl2O4基陶瓷为研究对象,通过数字光处理技术(Digital light processing,DLP)制备ZnAl2O4基微波介质陶瓷,研究了分散剂含量、固相含量、光引发剂含量和烧结温度对ZnAl2O
无焰燃烧能够减少NOx排放,是近年来广受关注的新一代燃烧技术。受反应机理以及计算资源的限制,目前对于无焰燃烧NOx生成的数值模拟研究基本都集中在气相燃料,对于煤粉无焰燃烧研究较少。本文将原位自适应制表和动态自适应机理简化法结合,采用自主发展的包含燃料氮生成的详细反应机理,研究煤粉无焰燃烧NO生成过程特性。首先,根据气相无焰燃烧模拟结果,从计算精度、计算效率等方面评价了动态自适应机理简化法(DAC)
化疗是目前癌症治疗的主要方法之一,传统的化疗药物存在水溶性差、肿瘤富集量低、分子小、易被肾脏清除等缺点,因此药物的临床使用往往伴随着较为严重的毒副作用,临床使用剂量受到限制。近些年来,许多基于大分子载体的纳米抗肿瘤化疗药物被研究者开发,以改善传统化疗药物的缺点。其中,一些研究结合癌症病灶的生化特性,将化疗药物通过刺激响应性化学键缀合在载体上,设计成智能响应性纳米药物。智能响应性纳米药物可以使活性药
微粒散射技术作为经典的探测手段之一,已经在气象学,海洋学,生物医学和环境学等多个领域有着广泛的应用。通过对微粒散射光的偏振态空间分布特性进行研究,可以得到微粒更加丰富的特性信息,是微粒散射理论与实用光散射技术的重要发展趋势之一。本文主要工作如下:对云层微水滴和水中微小油滴这两类散射场景进行建模和计算,讨论了各个输入参数对散射结果的影响,并基于传统的偏振态表征方法与前人对散射光偏振态表征的经验,总结
背景和目的肝细胞癌(hepatocellular carcinoma,HCC)是全球癌症导致死亡的主要原因之一,其在疾病早期阶段难以发现,进展到晚期时治疗选择有限且效果不理想,易转移,复发率高,预后很差。阐明肝癌发生和发展的机制,有助于发掘肝癌诊断/预后的生物标志物,开发有效的肝癌治疗药物。表观遗传调控功能障碍在肿瘤发生发展中起着重要作用。其中,BRD9介导的组蛋白乙酰化修饰是一种重要的表观遗传调
机械装备是船舶的主要组成部件,其平稳运行对于船舶运营安全性与可靠性等都具有重要的意义。然而,由于机械装备受到复杂工作环境、不当操作条件等因素的影响,其容易发生结构损伤、健康退化等问题,从而引发重大安全事故,造成巨大损失。为了保障船舶运营的安全性与可靠性,开展机械装备的寿命预测和故障诊断技术研究刻不容缓。随着人工智能技术,特别是深度学习的快速发展,探索将深度学习应用于机械装备寿命预测与故障诊断是一个
旨在研究花椒麻素对肥胖症模型SD大鼠体内脂质代谢功能的影响。将48只SD雄性大鼠按体质量分为空白对照组、高脂模型组、花椒麻素低/中/高剂量组[4、8、12 mg/(kg·d)]、非诺贝特阳性对照组[40 mg/(kg·d)],经过灌胃6周,记录大鼠的初质量、末质量及采食量,计算实验动物饲料效率。解剖后分别测定SD大鼠血清中的总胆固醇(total cholestrol, TC)、甘油三酯(trigl