基于深度学习的场景文字识别的研究及应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xiaodehuwei123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为计算机视觉中的热门方向之一,科研人员们在文字识别领域上已经取得了众多显著的成果,并将其广泛运用到真实场景中方便我们的日常生活。目前,虽然传统的OCR技术对于文档文本的识别已经十分成熟,但在自然场景下,由于背景复杂、文字多样,图片文本识别仍然是一项具有挑战性的任务,需要不断地探索和改进。因此,本课题将以场景文本识别作为主要研究内容,针对现存的两大难点提出改进方法。在应用上,本课题则以菜单作为落地点,设计完整的识别流程,并依此实现相应系统,为用户提供面向中英文的文字识别及翻译服务。针对场景文本识别的研究及应用,本论文主要涵盖以下工作:(1)为解决不规则文本场景和注意力漂移的问题,本课题提出了基于深度学习的场景文本识别算法DMDAN。首先,模型利用可变形卷积来增强对不规则文本的适应能力。然后,在编解码过程中分别采用混合域注意力和自注意力机制,有效地缓解了注意力漂移带来的影响。最后,结合中心损失来减小类内距离,使各类字符特征更易于识别。通过对比实验,证明模型的效果提升明显。(2)搭建面向特定领域的场景文字识别流程。首先使用VGGNet-16模型进行文本方向检测,将图片矫正至水平方向;然后通过CTPN模型进行文本检测,定位出图片中的文本区域;接着采用DMDAN模型进行文本识别,提取出图片内的文字;最后在seq2seq模型中引入双向解码器和dropout机制进行文本后处理,检测并修正文本中的字词错误。其中,在文本后处理阶段,为满足场景需求,本课题人工构建了一个相关数据集。(3)在上述识别流程的基础上,本课题设计并实现了面向中英文菜单的文字识别及翻译小程序,验证了论文研究和设计工作的正确性和有效性。
其他文献
以信息网络为载体的大数据时代,工程伦理教育对计算机类专业学生的培养尤为重要.由于目前针对计算机类专业的工程伦理教育相关教学案例比较少,文章构建了面向计算机或信息类专业学生的工程伦理案例库.将伦理理论与工程实践紧密结合,加深理解典型伦理问题,以培养良好的工程职业伦理责任和价值观.
分布式技术如今已成为智能系统的发展方向,结合不同的应用场景和需求,搭建特定的分布式系统,能极大提升系统的运行效率。而传统的分布式系统主要应用于计算机内部的算法训练,在硬件层面由于硬件设备种类繁多、结构单一、数据缓存不合理,难以形成协同配合,对于分布式系统的搭建形成巨大挑战。针对上述问题,本文在研究分布式系统的基础上,以海上应急救援为应用场景,通过组装9台硬件设备模拟救援设备,并设计救援设备协同集群
建立完善的动力电池回收利用体系是我国新能源汽车高质量发展需要突破的瓶颈问题之一,研究和发展智能化、柔性化、精细化的高效拆解技术是其中的重要环节.但由于受非结构化的拆解环境和拆解过程中的不确定性等因素的影响,目前,动力电池拆解还采用人工为主、机器辅助拆解的方式,不仅低效,而且致使工作人员暴露在危险的工作环境中,亟需向自动化、智能化方式转变.研究基于神经符号理论对动态环境中动力电池的拆解任务进行研究,设计并实现了一套任务和运动规划系统.与现有的动力电池拆解系统相比,系统在自主性、可扩展性、可解释性、可学习性4
人脸属性识别是计算机视觉和模式识别领域的热门研究课题之一,对人脸图像的分析和理解具有重要的研究意义,同时在图像检索、人脸识别、微表情识别和推荐系统等诸多领域具有广泛的实际应用价值.随着深度学习的快速发展,目前国内外学者已提出许多基于深度学习的人脸属性识别(deep learning based facial attribute recognition,DFAR)方法.首先,阐述人脸属性识别方法的总体流程.接着,按照不同的模型构建方式,分别对基于部分的与基于整体的DFAR方法进行详细地概述与讨论.具体地,对