阅读场景下文本检测与识别方法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:mysunmoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息在日常生活中无处不在。随着移动互联网和计算机视觉技术的发展,越来越多的研究者将目光转向如何高效精确地从图片中提取相应的文本内容,其中涉及到文本检测与识别技术。这项技术在截图翻译、辅助阅读、票据录入等领域获得了广泛的应用。目前的文本检测与识别方法主要针对自然场景进行研究,阅读场景相比自然场景具有文本实例长宽比变化大、文本行密集、中文文本实例偏多等特点,这给现有基于传统和基于深度学习的文本检测与识别方法带来了挑战。传统的方法通过手工提取文本实例的特征,这种方式难以得到精确的文本内容。本文研究基于深度学习的阅读场景下文本检测与识别算法,具体内容如下:1.本文构建了一个阅读场景下的中文文本检测数据集。本文分析了阅读场景下文本实例的特点以及现有的文本检测数据集的特点和局限性,明确本文数据集图片收集要点、收集方式、标注规则、以及本文采用的数据预处理方式。将该数据集与现有数据集进行对比分析,证明本文构建的阅读场景下中文文本检测数据集更适合本文算法研究。2.本文研究了一种基于文本特征对齐的文本检测算法。本文根据阅读场景下的文本实例长宽比变化大、具有多方向性等特点,研究并实现了文本特征对齐模块和分类与回归模块。文本特征对齐模块通过多条支路包含不同尺度的卷积和可变形卷积,增强不同比例和多方向文本实例的特征表达能力。该方法通过分类与回归模块定位文本区域。3.本文研究了一种基于像素聚合的文本检测算法。针对基于回归的方法在提取密集文本实例和弯曲文本实例时特征表达能力不足的特点,本文设计了一种基于分割的方法来完成文本检测。该方法使用轻量级的特征提取主干,融合了多个特征金字塔通道增强模块以提高主干网络较小的感受野和较弱的特征表示能力。具有可变形注意力机制的文本检测头预测文本区域、文本内核和实例向量,来更好地表达任意形状的文本特征。该方法通过像素聚合算法恢复文本区域。4.本文研究了一种基于自注意力机制的阅读场景文本识别算法。本文通过对CRNN算法的特征提取主干和编码器结构进行改进,将多头自注意力机制和Res Net结合作为特征提取主干,使用Transformer编码器进行序列建模,最后通过CTC解码器对特征进行序列解码,最终得到基于自注意力机制的文本识别算法。
其他文献
组织的发展离不开人力资源,无论是宏观国家层面还是微观企业层面无疑都印证了这一观点。从宏观层面看国家创新建设,深化战略改革,都以提高及发展核心人员自主创新能力为第一要素。习近平主席在2014年6月中国科学院第十七次院士大会上就曾指出:“盖有非常之功,必待非常之人。”实现中华民族伟大复兴,人才越多越好,本事越大越好。可见人才的重要性和急迫性。位于中国深圳的M公司在高科技医疗设备研发制造厂商中隶属第一梯
学位
随着5G、数字化、智能时代的到来,智能家居也逐渐火热起来,而在物联网的加持下,智能家居也逐渐进入成千上万的家庭,成为大众的一种普遍选择。H公司成立于2009年,持续多年在舒适智能家居行业深耕,于2019年成为中国舒适智能家居行业首个国家独角兽企业。但是近年来H公司发现内部财务管理相对业务发展匹配度不够,财务与业务之间交融与贯通的粘性不足,在某种程度上限制了公司的发展,H公司意识到业务与财务融合势在
学位
目的 探究围绝经期综合征女性性激素水平与负性情绪的关系。方法 选取遂宁市中心医院2018年7月—2022年3月收治的104例围绝经期综合征女性作为研究对象,采用全自动生化分析仪检测睾酮(testosterone, T)、促黄体生成素(luteinizing hormone, LH)、孕酮(progesterone, P)、促卵泡生成素(follicle stimulating hormone, F
期刊
我国工业用地政策经历了“行政划拨——协议出让——招拍挂出让——弹性出让”四个阶段,以不断调整适应我国工业化进程,政策演进遵循了法治化和市场化的基本原则。当前,工业用地市场存在着新增用地供给短缺、存量用地低效使用和用地金融化倾向等问题。推进工业用地市场化改革是市场机制配置资源的基本要求、城市更新与产业发展的现实需要以及共同富裕和公平正义的原则体现。推进工业用地市场化改革,应制定工业用地利用规划以科学
期刊
近年来,背景减除算法作为视频处理的基础技术被广泛地应用于各种领域,例如视频编辑、人机交互、智能监控等场景。该任务的主要目的是去提取视频序列中运动目标的像素,并分割出其中的前景区域。背景减除算法总体上可以被归纳为传统方法与深度学习方法两大类。其中,传统方法利用视频序列的统计信息设计了相应的手工特征并对图像序列构建背景模型,通过对比输入图片与背景模型的差异从而实现运动目标的提取;基于深度学习的方法则利
学位
有损压缩作为一种在失真和码率预算之间进行权衡的压缩技术,是当下对图像和视频内容进行压缩的主流选择。在有损压缩中,对于失真和码率这两个权衡项,后者的衡量是客观的,前者却一直没有统一的定义。从人眼视觉的角度来看,目前仍然没有完全客观的失真度量指标来反映人眼视觉的失真,此外,随着近年来基于深度学习的计算机视觉技术的快速发展,大量机器分析系统的落地,视频与图像内容不仅仅服务于人眼视觉的需求,同时也需要服务
学位
新世纪伊始,保罗·莱文森所划分的“新新媒介”时代来临,同步开启了我国的网络视听时代,我国网络综艺节目从此诞生。凭借新奇的创意、多元化的题材、个性化的内容、年轻化的视听风格、高度参与的互动方式和灵活多样的制播模式,我国网络综艺节目从互联网文化生态中脱颖而出,为人所瞩目。历经二十年的发展,中国网络综艺节目走出了一条兴起、发展、革新、繁盛的崛起之路。在不断探索和创造过程中,中国网络综艺节目始终根植于数字
学位
<正>目的:探讨在乙型病毒性肝炎及肝硬化发生发展过程中性别因素所起的作用。方法:以200例乙型肝炎和 316例肝炎后肝硬化患者为研究对象,对其性别特征进行分析。结果:不论是乙型肝炎还是肝硬化均为男性患者多于女性患者,乙型肝炎与肝硬化之间在男女发病率上的比较差异无统计学意义(P>0.05)。在血清抗-HBe 的阳转率中,女性高于男性,男女之间HBeAg的阳性转换率差异有统计学意义(P<0.01)。结
会议
近年来,我国金融行业发展势头良好,金融产品日益丰富,较好地满足了企业贸易中的金融服务需求。然而,当前我国企业在贸易往来中积累了体量庞大的应收账款,企业急需盘活其应收账款,加速其资金流通,缓解其债务困难,其亟待金融服务的跟进。尤其是对于中小企业而言,通过应收账款融资这个方式,能够帮助解决困扰其发展的融资难题。与此相关的金融服务需求,对于商业银行来说,是发展金融业务、服务实体经济的良好契机。因此,如何
学位
中小生产加工型企业作为我国国民经济的重要组成部分,为经济增长、发展创新、就业创造和税收增长作出了重大贡献。然而由于中小生产加工型企业既有中小企业局限性,又具有生产加工型企业特点,导致资金问题成为了抑制其发展的重要原因。再加上近些年国内和国际经济形势的影响,以及2020年爆发的新冠疫情使得中小生产加工型企业的处境愈发的困难,中小生产加工型企业普遍面临着资金短缺却又无法找到融资渠道的困境。这些使得寻找
学位