基于大字符集脱机手写体汉字识别方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:dingzhiyoulan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
脱机手写汉字识别在中文字符自动化处理和智能输入方面有着广泛的应用前景。由于手写汉字具有随意性、相似字多和字体形式多变等特点,使得脱机手写汉字识别成为字符识别领域的一个难点和热点。本文主要以脱机手写文本图像作为研究对象,研究了文本图像的二值化、汉字字符的分割和基于多特征多分类器融合的识别方法三个方面,寻求一个针对大字符集能较好区分相似特征的脱机手写体汉字识别方案。论文研究内容如下:(1)针对光照不均对文本图像二值化的影响,提出了一种基于边缘轮廓的自适应文档图像二值化方法。该方法基于log边缘轮廓生长的阈值化方法估计文本前景区域,有效的减少笔划丢失和断笔现象,同时解决前景估计时产生大块噪音的问题。其次,以局部区域背景灰度平均值和前景区域平均灰度值与当前位置像素的灰度差值为度量标准,引入抑制噪音的参数变量来改进阈值公式,进一步对噪音进行抑制。实验表明该方法有效地抑制了噪音,较好的保留了汉字结构的完整性。(2)针对手写体汉字中粘连或交叉字符的分割问题,本文提出一种基于最小加权分割路径的脱机手写汉字多步分割方法。该方法继承了以往粗分割和细分割相结合的思想,首先采用投影方法进行粗分割,将文本汉字分为粘连字符和非粘连字符两类;在细分割阶段,抛弃常用的串行模式分割思想,直接利用粗分割后的统计信息,来设置初始分割路径。并基于最短分割路径的思想,在初始分割路径的局部邻域内采用基于最小权值的算法搜索并修改分割路径,从而获得最佳的加权分割路径。实验证明该方法较好地解决了字符分割不足和多处粘连字符的分割问题,有效的提高了分割的准确率,且算法的时间复杂度较低。(3)为进一步提高大字符集汉字的识别率,本文将能反映上下文关系的基于词的级联隐马尔可夫训练模型用于解决相似字识别问题,并给出了一种与其相应的级联识别方法,尝试从识别分类器的角度提高相似字的识别率。然后利用不同分类器的优点,设计了一种结合词级联HMM的多特征多分类器集成方案,该方案使相似字和非相似字能自适应地选择合适的方法进行针对性识别,有效的提高了整体识别率。
其他文献
计算机视觉的不断发展使得人们对视觉应用的实时性要求越来越高,传统单核平台上的串行应用程序已不能满足人们的要求,多核平台的出现为该问题的解决带来了新的突破口,多核平
在现实世界中,存在着大量的含糊、不确定、不完全和模糊的信息。如何精确描述这些信息是科学研究中很重要的问题。当前,处理模糊信息的方法主要是建立在Zadeh提出的Fuzzy集的
互联网的快速发展,使数据规模呈指数级增长,海量的数据中蕴含着非常多的信息,需要我们挖掘与分析其中价值,在使用传统驻留内存的数据挖掘算法处理海量数据时受到了单机性能问
随着现代数字化、信息化和网络化的普及,如何确保存储涉密介质如移动硬盘、优盘、笔记本电脑和密级文件的安全,已成为保密设备控制应用中重要的研究问题。为了提高保密设备的
随着我国社会经济迅猛发展,大气污染问题愈加严重,引起了政府、学者和民众的广泛关注。为了更好地反映大气污染变化趋势,加强大气污染防治,研究污染物的预测方法就显得意义重大。
大型搜索引擎系统每秒钟都在响应着大量的用户请求。这些查询请求希望从上百亿张网页中检索出最相关的网页集合。随着互联网业务的迅猛发展,搜索引擎系统检索的信息量和承担的
近年来,随着人脸识别技术日趋成熟,已经逐渐应用于人们的日常生活中?作为人脸识别的前期阶段,人脸检测一定程度上影响着人脸识别的速度和识别率?因此,研究人脸检测算法,提高
城市地下水资源是我国水资源的重要组成部分,是促进我国城市经济发展的重要物质基础。但长期以来对地下水盲目过度的开采已导致某些地区地面下沉、海水倒灌甚至深层地下水污染
人脸图像分析作为计算机视觉领域中一个有着广泛应用前景的研究方法,吸引了越来越多人的研究兴趣。本文我们将针对人脸图像分析中的严重遮挡的人脸定位、基于人脸的亲属识别
人脸识别已成为机器学习、模式识别和机器视觉等研究领域的热点问题,在商业、公安系统等领域中更有着广泛的应用。特征抽取一直是人脸识别研究的一个基本问题,如何从高维数据