基于单个汉字字符的字体识别研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:xiongwen0225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字的字体信息是文档信息的重要组成部分之一,在汉字文档的电子化过程中有着不可忽缺的作用。汉字字体信息是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统。该文对基于单个汉字字符的字体识别算法进行了研究,主要的创新工作为: (一)根据汉字的结构特点,首次提出了笔画属性特征和笔画分布特征的概念,并用于单个汉字字符的字体识别。其中笔画属性特征只反映字体差别,而笔画分布特征则同时反映字体差别和字符差别。 (二)根据汉字的字体特点,提出一种全新的小波识别特征提取方法。在文本无关条件下的、基于单个汉字字符的字体识别非常困难,其关键和难点在于很难提取到有效的字体鉴别特征。该文提出的特殊的小波特征很好地解决了这个问题,为实现一个文本无关条件下的、基于单个汉字字符的高性能字体识别系统打下了坚实的基础。 (三)鉴别特征的提取和高性能分类器的设计。由于字符信息在汉字图像中占支配地位,字体信息只是附加在字符信息上的细微变化,因此在文本无关条件下提取的字体识别特征中必然包含大量的字符信息。为保证高的字体识别性能,必须尽可能提取字体鉴别信息,去除字符信息的干扰。为此,该文提出对提取的初始特征进行线性鉴别分析处理,得到适于进行字体识别的鉴别特征。同时在分类器设计方面,通过分析特征的分布,该文设计了一个高性能的字体识别分类器。 (四)幂方变换和鉴别学习的研究。在参数分类器设计过程中,以下两个因素降低了分类器性能:首先,样本的真实分布并不等于假设分布;其次,最大似然估计得到的参数和实际参数之间存在偏差。我们针对这两方面对系统进行改进:通过幂方变换,有效降低了系统的模型误差;通过鉴别学习,有效减小了参数估计误差所引起的系统性能劣化。 利用以上技术,该文实现了一个高性能的字体识别系统。在文本无关条件下,该文在计算机生成的高质量样本集上,对于7种字样识别得到98.20%的识别率,对于28种字体识别(7种字样和4种风格的组合)得到90.58%的识别率;在接近实际样本质量的样本集上,对于7种字样识别得到91.29%的识别率。 该文提出的算法是关于在主要属性变化剧烈条件下,对于细微属性的特殊和困难的鉴别领域,具有较大的通用性,适用领域广泛。该文算法不仅适用于基于单个汉字字符的字体识别领域,而且在基于单个字符的语种识别、基于单个字符的手写印刷属性鉴别、手写数字识别等领域都表现出优秀的识别性能。
其他文献
医学图像在形成、传输或变换过程中,由于受多种因素的影响,经常会使图像模糊不清,从而影响了医学图像在临床诊疗过程中的应用.医学图像增强是医学影像处理研究的一个重要课题
语音是人们日常生活中最广泛和自然的交互方式,因此从计算机诞生之日起,和计算机进行对话交流就成为计算机科学家的研究目标。语音用户界面就是研究这方面的内容,它是多通道人机
该文设计与实现了一种可用于宽带网多媒体终端的流媒体播放器.在分析了DVD影碟的文件组织规律和DVD播放器实现数据随机访问机制的基础上,该文提出了一种以逻辑块号间接定位DV
在全世界范围内,肺癌是导致肿瘤死亡率居高不下的最主要原因之一,每年约造成140万人死亡。本研究中,我们利用全外显子组测序的方法对9例中国非小细胞肺癌(NSCLC)肺癌病人进行肿
本文通过对荣华二采区10
期刊
该文围绕数字城区景观三维重建过程中基本地物建模及可视化实现这一中心问题,开展了下列工作.一是针对实践中发现的模型拓扑关系描述不清晰带来的模型库管理不便,使程序维护
摘要:当前实行素质教育时期,教育不再片面注重学生的成绩,而是更为重视学生素质的培养。初中生正处于青春期,由儿童向成年人过渡,伴随着生理的成熟,心理也产生了变化,他们认为自己已经是大人,不再对父母过于依赖,对父母和学校的管束比较反感,容易受到外部环境的干扰,而是追求“独立”和“个性”,需要别人的认同。但是,他们本身缺乏社会经验,心理还不成熟,如果没有正确的引导,学生会出现心理畸形,处理不当还会走上犯
随着数据业务和多媒体业务的快速增加,人们对定位与导航的需求日益增大,尤其在复杂的室内环境。超宽带脉冲无线电(IR-UWB)技术,利用极窄脉冲的低功耗,以及传输具有的良好的时
该文对内容管理系统的概念、功能进行了详细的介绍,提出了一套内容管理系统的设计方案,给出了该系统的部分功能和API实现,对系统使用到的部分关键技术进行了探讨和研究.该系
目的:肾性高血压模型的建立;用大鼠脑定位仪、微透析及电化学检测技术建立大脑核团神经递质含量测定的方法。比较保留肾神经组和去除肾神经组大鼠肾性高血压模型中的动脉血压