面向低质量图像的场景文本识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zk0529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本识别已经成为计算机视觉和模式识别领域的活跃研究领域。完整的识别过程包含场景文本检测和场景文本识别,即从图片中检测出文本实例,再用识别网络识别,本文只研究识别过程。本文以自然场景中低质量文本图像作为研究对象,针对不同的低质量文本图像,分别提出了三个模型来解决对应的问题。基于超分辨模块的场景文本识别模型。考虑到光学退化、拍摄时的抖动等原因,导致了字符形状的模糊,产生了低分辨率的文本图像。使用超分辨模型对低分辨率图片进行预处理,得到的超分辨率图像再输入到识别网络中。在语义信息的基础上,使用语义信息增强器把语义信息解释为图像特征,从而将语义引导的影响作用于图像特征域中的相关空间位置。实验结果表明了提出的超分辨模型取得了很好的性能。基于语言模型的场景文本识别模型。考虑到由于遮挡问题,文本图片会缺少部分视觉信息,识别网络难以根据视觉信息准确识别文本。语言模型包含了丰富的语言先验知识,使用语言模型生成初始预测的语义信息,然后使用注意力机制获得多模态的增强特征。另外,对视觉线索使用掩码策略,来刺激语义组合。最后,两个增强后的多模态特征使用门控单元进行融合,进行最后的预测。实验结果证明了提出的语言模型对场景文本识别模型性能的提升。基于校正网络的场景文本识别模型。考虑到自然场景中文本形状多样、图案扭曲等影响,识别不规则场景文本仍然具有挑战性。本课题设计了一个校正模型来对文本图像进行校正。不同于传统的校正方法只在图像层面进行校正,这一部分还在特征级别进行校正。校正机制包含三个部分:图像级别的全局和局部校正模块以及特征级别的细化校正模块。三个模块逐步工作,产生更准确的校正结果。通过渐进式校正,逐渐缓解了文字的变形,抑制了背景的干扰。因此,识别网络可以专注于信息区域。与其他校正方法的对比表明了提出的校正机制的有效性。
其他文献
不一致数据最优修复计算问题的复杂性总是NP完全的,为该问题设计带有理论保证的近似算法已经成为一个独立、热门的研究领域,在数据修复、一致查询回答中有着广泛的应用。该问题通常被建模为图论中的组合优化问题,如最小带权顶点覆盖问题、最小带权集合覆盖问题等等。因此,大多数基于图论的近似算法可以直接用于不一致数据最优修复计算问题,这些算法能在多项式时间内给出较好的常数近似比结果。除了被建模为图论中的组合优化问
学位
由于互联网的广泛普及以及疫情的影响,在线教育成为学生主要的学习方式之一。在线教育平台不同于传统的课堂教学模式,学生们可以根据自身情况挑选课程内容进行学习。针对不同学生的学习需求,在海量的课程中选取适合学生的课程进行教学,教育平台需根据学生的自身能力为学生推荐合适的教育资源。由于学生会随着学习过程不断积累能力,所以实时追踪学生能力水平至关重要。认知诊断能够根据学生的历史学习记录,分析出学生在特定知识
学位
包含依赖挖掘(IND)是数据挖掘最重要的研究问题之一。包含依赖挖掘是指在一个关系型数据集中表示某一属性组合的所有值,都包含在另一属性组合的值中。它在外键检测、查询优化等领域都有重要应用。文中首先介绍了包含依赖的基本概念和现有算法及发展,然后重点从一元包含依赖挖掘的集中式和分布式两个角度进行算法原理的分析、设计、剪枝优化。集中式算法方面,本文充分利用日益增长的单节点多核计算能力和内存存储,使用多线程
学位
随着信息化的普及,司法领域提出了智慧司法的概念。智慧司法将人工智能,大数据等技术应用于司法工作之中,对司法过程与结果实行统一管理。自然语言处理是智慧司法的重要研究领域,其中包括机器翻译,文本分类,语言生成技术等。本文对智慧司法中的文本分类任务进行了研究,在舆情文本和裁判文书分类两个数据集上进行了大量实验。这两个数据集可以代表大多数司法领域的文本分类任务,我们希望通过对这两个数据集的分析与实验,对司
学位
在月球探测器精确着陆导航任务中,传统的基于惯性测量的导航方法由于其固有的漂移和误差特性,无法满足精确着陆任务的精度要求。为提高月球探测器着陆精度,本文提出一种基于陨石坑匹配的地形相对导航方法。该方法是通过探测器拍摄图像中陨石坑信息与所存储的月表陨石坑信息匹配来达到导航目的的一种导航方法。可以解决基于惯性导航方法长时间运动导致的累计误差问题。本文研究基于陨石坑匹配的地形相对导航方法,主要研究内容如下
学位
近年来,随着互联网技术的飞速发展,网络中时刻都会产生大量的时空数据,时空数据为同时具有时间维度、空间维度及其他属性得数据类型。时空数据在供应链、电子商务、物流等领域中具有广泛的应用。因此,在实际中保证时空数据的安全存储以及快速查询具有重要的意义。目前时空数据的主要存储方式多为集中式存储和分布式存储,但仍然存在数据不透明、且易被篡改等问题,同时容易形成数据孤岛,无法进行有效的数据共享。保障时空数据的
学位
随着信息技术的发展,区块链技术的应用领域越来越广泛,如金融、政务、数字货币、教育等。特别是在金融领域,对海量金融数据进行分类存储并找出具有重大潜在价值的事件,在推动信息技术融合、促进数字经济健康发展等方面具有广泛而深远的意义。金融时序数据具有规模大、场景复杂、类型多、易篡改、溯源困难等特征。因此,近些年,通过区块链技术对金融数据进行高效的存储和溯源引起了学术界的广泛研讨,也成为领域研究的重点和难点
学位
知识图谱嵌入任务由简单的翻译模型发展到如今基于各种复杂的神经网络方法,在模型性能大幅提高的同时,模型的参数也越来越多。以现如今性能最好的图神经网络模型为例,其训练的时间、占用的空间资源要数十倍于最经典的TransE翻译模型。对当前复杂的知识图谱嵌入模型进行优化,加快模型训练速度,减少模型占用显存,目前已经在知识图谱领域成为了一个新的热点问题。针对图神经网络预训练速度较慢,占用显存较高等问题,本文提
学位
数据增强作为自然语言处理任务中常用的技术一直受到了广泛的关注,尤其对于机器翻译这种需要大量训练数据的任务来说尤为重要。对于机器翻译领域中数据增强技术来说主要有两种方法,一种是反向翻译,另一种是词替换的方法,但由于词替换的方法所需资源更少,方法更为简单的特点,在某些低资源场景下相对来说更为合适。然而当前基于词替换的数据增强方法依旧存在一些不足之处:整体平均替换率较低,以及词与词之间相互独立进行替换而
学位
当今人工智能技术已经在社会生活的方方面面发挥着重要作用,但是现有的人工智能技术仍与人类的推理能力存在着很大的差距,而事件关系推理这一任务,通过让机器学习事件间隐含的逻辑关系,提高机器的认知能力,继而服务于下游任务。而如何让机器更好地学习到事件间隐含的关系,就是一项重要的课题。本研究通过引入外部事理常识知识,并结合事件联合推理技术实现时序和子事件关系推理。本研究首先探索了外部事理知识增强的时序关系推
学位