基于深度学习的手写体中文识别方法

来源 :天津大学 | 被引量 : 0次 | 上传用户:yuyisea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写体中文的自动识别是中文文档数字化的前提和基础,在历史文档识别、手写笔记转录等方面有着重要的应用价值。手写体中文具有书写随意、结构复杂、相似性强、数目众多、缺乏统一规范等特点,这使得其自动识别成为一个具有挑战性的问题。
  本文首先分析了手写体中文自动识别领域的研究背景与意义,对国内外的研究现状做了综述;介绍了深度学习的基础理论知识、卷积神经网络的构成,以及常用的网络模型。
  其次,论文在经典LeNet-5网络模型的基础上进行改进,提出了一种LeNet-II模型。利用改进的Inception模块和空洞卷积,设计了一种并行的双路卷积神经网络结构;两路分支可分别提取手写中文图像中不同尺度的特征,获得多个尺度的特征图像;特征融合后,可以丰富特征图像多样性,提升识别的准确率。利用经典手写体中文数据集进行训练,实现了3755类手写体中文字符,以及相关文本的自动识别。实验结果表明,基于LeNet-II模型的手写体中文识别方法,其收敛速度和识别准确率明显优于经典LeNet-5模型,也高于其它传统算法;此外,对6幅手写体中文文本的平均识别准确率达到97.13%,超出了人类表现。
  池化计算在降维的过程中容易忽略掉某些特征信息,为解决上述问题,提出了一种基于注意力机制的手写体中文识别方法。在卷积神经网络模型的基础上,搭建了一种AT-CNN网络模型,利用注意力机制实现了网络层之间的信息交互,减少了因池化操作导致的信息丢失。通过在经典手写体中文数据集HWDB上进行实验,结果表明,本文方法的识别准确率可以达到95.05%,明显高于卷积神经网络模型,也高于其它传统算法。此外,设计了一种手写体中文识别GUI界面,便于用户进行实际操作。
  最后,论文对本文工作进行了总结,并对未来研究方向作了展望。
其他文献
雨是最常见的气候现象,在雨天环境下,视觉传感器拍摄到的图像和视频会严重退化,出现模糊、细节丢失、颜色失真等现象。这些现象在影响视觉效果的同时,也会导致视觉处理算法如图像分类、目标检测、图像分割等性能的下降。因此,研究图像去雨对提升室外计算机视觉系统的稳定性有重要的意义。单幅图像去雨方法缺少图像序列之间的时间信息,相对于视频去雨具有更大的挑战性。本文围绕单幅图像去雨任务展开工作,主要工作内容和研究成
目标跟踪是指在第一帧中利用矩形框手工标注跟踪目标,计算机通过特有算法框架,精确定位出后续视频帧中目标位置。近年来随着计算机硬件及图像处理能力的提高,目标跟踪吸引了越来越多的关注。由于卷积神经网络在特征提取中的强大能力,目标跟踪领域的前沿研究主要基于深度学习和神经网络。现有的方法存在以下两个问题:1)目前目标跟踪任务中,由于训练数据集中困难样本缺少且覆盖的情况太少,导致基于“数据驱动”的深度学习网络
学位
协同显著性检测是指从一组图像中检测出共有的、显著的前景目标,在场景分割和目标跟踪等领域起着重要的作用。如何计算图像内和图像间显著值是算法中最关键的步骤,然而现有很多算法没有探索更多的表征图像内和图像间关系的特征信息,故当图像组背景环境复杂、前景目标混乱不易区分时,无法准确地检测出前景目标。  为了探索更有效的特征信息、弥补颜色特征的局限性,本文提出了一种基于对象性和多层线性模型的协同显著性检测算法
随着多媒体技术和互联网的发展,图像逐渐成为一种简单高效的信息承载方式,在人们的日常生活中发挥着至关重要的作用。然而,图像在获取、处理、传输和存储的各个阶段都有可能产生质量退化效应,不仅影响用户的视觉体验,而且不利于后续的应用。因此,通过分析和建模提出有效的图像质量评价方法具有重要意义。图像信号通过人眼接收并传递给视觉皮层,人眼视觉系统决定了图像以何种形式被解释和理解,从而产生美观与糟糕等主观判断。
基于草图的跨域图像检索旨在根据输入的手绘草图与数据库中彩色图像的相似性度量返回彩色图像排序结果。该检索可以在基于文本的图像检索不准确或基于内容的图像检索中彩色图像难以获得的情况下,通过输入手绘草图完成图像检索任务。虽然相对于传统的图像检索算法,现有的草图检索算法效果得到了较好的提升。但是草图与彩色图像的特征映射与跨域检索等问题仍然没有得到较好的解决。因此,本文从网络结构与多损失函数优化两个方面,提
学位
近年来,隐身技术发展迅猛,在战争环境中占有不可替代的位置,因此反隐身技术的研究更是迫在眉睫。认知雷达不只具备对环境相应变化的感知能力,而且更具备处理自适应、能力自提高的优势,将认知雷达应用于反隐身技术中,让其根据对环境的感知进行自我调整从而能够极大的提升反隐身能力。本文将研究认知雷达识别隐身目标的方法,建立认知雷达认知-反馈-决策-响应的闭环体系,提出一种认知雷达跟踪识别隐身目标的框架,将分布式卡
学位
随着计算机视觉技术以及人工智能的发展,近几年图像的目标检测取得了巨大进展,得到了工业界和学术界的广泛关注。图像的目标检测需要检测并且识别出指定目标的物体,也是视频目标检测主要技术之一。随着智能视频处理技术的发展,对视频序列进行目标检测逐渐进入人们的视野中,并且在实际的监控领域中成为其它技术的基础。如何有效的提高视频序列中目标检测的性能具有非常重要的研究价值。针对这一问题,本文从目标检测中图像分类的
学位
图匹配问题是多媒体领域中一个基本的问题,在目标检测、目标追踪、三维模型检索等领域都有重要的作用。本文提出了一种基于子图学习的图匹配算法,通过引入惩罚项来优化子图的选择,从而降低传统图匹配问题中离群点对匹配结果的影响,提高了匹配精度。  本文还基于子图学习的图匹配算法提出了基于图匹配的三维模型检索算法。本文对三维模型提取多个角度的二维视图,将三维模型检索的问题转换为图匹配的问题,然后利用子图学习的算
从军事、工业、农业到人工智能等多个领域,无人机得到越来越广泛的应用。在所有对无人机的应用研究中,任务分配和路径规划是最基本的两项技术。近年来,已经提出了多种任务分配和路径规划方法,并且取得了一定的进展。任务规划根据对应用场景的整体把控,对无人机作出合理的任务分配方案,帮助无人机更好地完成任务。路径规划则根据无人机到目标点的距离等因素为无人机规划出最佳的飞行路线。因此对任务分配和路径规划方法的研究对
学位
水声传感器网络作为探索海洋、开发海洋的一种新的方式,在海洋监测、临海预防等多个领域有着广泛的应用前景,已引起各国越来越多的关注。作为海洋监测的重要工具,水声传感器网络的核心是能够有效收集所需要的海洋环境信息。因此,本论文针对数据收集时的节点部署和路由关键技术展开研究。  针对现有节点部署方法未能很好实现网络覆盖和连通的联合优化,无法有效收集数据并传输的问题,本论文设计了一种基于深度可调节节点的部署