基于深度学习的自然场景文本检测识别技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wori10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,自然场景下的文本检测与识别方法是计算机视觉领域中的一个重要的研究方向。一方面,作为实现完全图像理解的重要环节之一,自然场景下的文本检测与识别方法具有很高的研究价值;另一方面,在包括文档分析、智慧城市、工业检测等领域在内的诸多应用场景中,高性能的文本检测和识别系统也有着重要的现实意义。本文首先对基于传统机器视觉和深度学习方法的文本检测和识别方法中的代表性工作进行了系统地梳理和总结,并对其中部分主要方法的思想、原理和优缺点等进行了详细阐述。基于上述分析,本文针对现有的文本检测和识别方法中的不足之处提出了具体的改进方法。本文主要工作如下:(1)基于分水岭分割的高效自然场景文本检测算法研究。第一,针对目前主流的文本检测算法普遍不能良好地建模文本区域边界的问题,提出了使用分水岭分割建模文本边缘的文本检测方法,并基于该方法设计实现了完整、高效的文本检测模型;第二,针对文本检测方法对训练数据的客观要求,设计了旋转、缩放、拉伸、裁切、重采样、色彩变换等六种数据增强方法;第三,针对该模型的损失函数的特性,设计了针对性的在线难例挖掘方法。(2)基于全卷积网络的高效自然场景文本识别算法研究。第一,针对用于文本识别的特征提取网络中普遍存在的模型容量低、数据需求高等问题,设计并实现了“残差化的序列提取网络”;第二,针对文本识别中多层循环神经网络梯度传播路径过长、计算成本较高、训练较为困难等问题,设计并实现了完全使用卷积神经网络构建的“全卷积序列解码器”,该网络与上述序列提取网络共同构成了完整的、完全使用卷积神经网络构建的文本识别方法。第三,针对待识别图像中存在的旋转、扭曲等形变问题,设计了使用空间变换网络进行图像自适应校正的改进方法。(3)针对本文提出的文本检测和文本识别模型,在ICDAR 2013、ICDAR 2015和TD-500等数据集上进行了充分实验。实验证明,相对于各领域的主流方法,本文提出的文本检测方法的计算成本相对下降43.03%,检测精度相对提升9.59%;本文提出的文本识别方法的计算成本相对下降73.47%,识别精度相对提高9.75%。实验表明,本文提出的文本检测和识别方法具有较强的实用性,可应用于典型的文本检测与识别系统中。
其他文献
目的 机体内能源物质的含量及微循环的平衡是影响竞技能力、状态、和恢复的主要因素。科学训练结合合理营养可明显提高运动能力。方法 分析人体处于运动不同时期的生理、生化
文章认为,我国上市公司会计信息披露还存在诸多现实问题,为此应建立会计信息披露的规范体系,逐渐完善虚假信息发现机制;并采取加强有关单位治理、监督职能,改革会计信息生产模式等
目的:探讨补肾疏肝方联合人工周期治疗肾虚肝郁型卵巢储备功能下降(DOR)的临床疗效,为中西医结合治疗本病提供新思路。方法:将59例证属肾虚肝郁型DOR患者按完全随机化分组,观察
为掌握不同加湿方式对气调保鲜环境调控的影响,搭建了气调保鲜环境综合调控试验平台,对比超声波和高压雾化2种加湿方式对气调保鲜环境调控的影响。结果表明:超声波加湿对厢体内
随着高层建筑的发展,当前深基坑工程日益增多。但深基坑工程施工中也出现了一些不容忽视的问题。本文现就深基坑工程施工中的常见问题及对策作简要探讨。
鲫鱼已成为北方地区淡水养殖的热门品种.尤其是象鲤鱼这样的大宗品种,已逐渐被人们淡漠,向名特优发展。因此,鲫鱼越来越受消费者青睐,一些养殖户看好市场,转变养殖模式以求得更高的
目的观察橙皮苷对化学性肝纤维化大鼠α-平滑肌肌动蛋白(α-smooth muscle actin,α-SMA)表达的影响,探讨其可能的作用机制。方法采用50%四氯化碳(carbon tetrachloride,CCl4)每
为了研究电机铁心加工工艺对非晶合金材料磁化和损耗性能的影响,实验实测了非晶合金铁心的磁化性能和损耗性能,通过分析非晶合金铁心损耗测试结果,得出了铁耗计算模型中磁滞
众所周知,不同民族有着不同的饮食偏好和禁忌,究其原因,其中存在宗教、文化的因素,但是最根本的还是经济因素;本文将从经济学角度分汉人的谷物偏好与牛肉禁忌、印度人的牛肉
明洪武年间依例建置德州正卫,左卫则是在永乐年间设立,一为填补德州因靖难之役而骤减的人VI,二为加强德州的军事力量,三为助力德州的漕运。德州正左二卫为德州经济的发展,德州及周