基于单个汉字字符的字体识别研究

来源 :清华大学 | 被引量 : 0次 | 上传用户：xiongwen0225

【摘要】

：

汉字的字体信息是文档信息的重要组成部分之一，在汉字文档的电子化过程中有着不可忽缺的作用。汉字字体信息是版面分析、理解和恢复的重要依据，还有助于实现高性能字符识别系统

【作者】

：

陈力

【机构】

：

清华大学

【出处】

：

清华大学

【发表日期】

：

2003年期

【关键词】

：

字体识别单字符小波特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

汉字的字体信息是文档信息的重要组成部分之一，在汉字文档的电子化过程中有着不可忽缺的作用。汉字字体信息是版面分析、理解和恢复的重要依据，还有助于实现高性能字符识别系统。该文对基于单个汉字字符的字体识别算法进行了研究，主要的创新工作为： (一)根据汉字的结构特点，首次提出了笔画属性特征和笔画分布特征的概念，并用于单个汉字字符的字体识别。其中笔画属性特征只反映字体差别，而笔画分布特征则同时反映字体差别和字符差别。 (二)根据汉字的字体特点，提出一种全新的小波识别特征提取方法。在文本无关条件下的、基于单个汉字字符的字体识别非常困难，其关键和难点在于很难提取到有效的字体鉴别特征。该文提出的特殊的小波特征很好地解决了这个问题，为实现一个文本无关条件下的、基于单个汉字字符的高性能字体识别系统打下了坚实的基础。 (三)鉴别特征的提取和高性能分类器的设计。由于字符信息在汉字图像中占支配地位，字体信息只是附加在字符信息上的细微变化，因此在文本无关条件下提取的字体识别特征中必然包含大量的字符信息。为保证高的字体识别性能，必须尽可能提取字体鉴别信息，去除字符信息的干扰。为此，该文提出对提取的初始特征进行线性鉴别分析处理，得到适于进行字体识别的鉴别特征。同时在分类器设计方面，通过分析特征的分布，该文设计了一个高性能的字体识别分类器。 (四)幂方变换和鉴别学习的研究。在参数分类器设计过程中，以下两个因素降低了分类器性能：首先，样本的真实分布并不等于假设分布；其次，最大似然估计得到的参数和实际参数之间存在偏差。我们针对这两方面对系统进行改进：通过幂方变换，有效降低了系统的模型误差；通过鉴别学习，有效减小了参数估计误差所引起的系统性能劣化。利用以上技术，该文实现了一个高性能的字体识别系统。在文本无关条件下，该文在计算机生成的高质量样本集上，对于7种字样识别得到98.20％的识别率，对于28种字体识别(7种字样和4种风格的组合)得到90.58％的识别率；在接近实际样本质量的样本集上，对于7种字样识别得到91.29％的识别率。该文提出的算法是关于在主要属性变化剧烈条件下，对于细微属性的特殊和困难的鉴别领域，具有较大的通用性，适用领域广泛。该文算法不仅适用于基于单个汉字字符的字体识别领域，而且在基于单个字符的语种识别、基于单个字符的手写印刷属性鉴别、手写数字识别等领域都表现出优秀的识别性能。

其他文献

基于边缘检测的CT图像粗糙集增强算法研究

医学图像在形成、传输或变换过程中,由于受多种因素的影响,经常会使图像模糊不清,从而影响了医学图像在临床诊疗过程中的应用.医学图像增强是医学影像处理研究的一个重要课题

学位

图像增强图像增强粗糙集粗糙集边缘检测边缘检测对比度增强对比度增强

语音用户界面平台的设计与评估

语音是人们日常生活中最广泛和自然的交互方式，因此从计算机诞生之日起，和计算机进行对话交流就成为计算机科学家的研究目标。语音用户界面就是研究这方面的内容，它是多通道人机

学位

语音用户界面人机交互多通道对话式交互结构化语言

宽带网多媒体终端—嵌入式流媒体播放器的设计与实现

该文设计与实现了一种可用于宽带网多媒体终端的流媒体播放器.在分析了DVD影碟的文件组织规律和DVD播放器实现数据随机访问机制的基础上,该文提出了一种以逻辑块号间接定位DV

学位

流媒体VCRMPEGDVD多媒体终端宽带网流媒体播放器

中国非小细胞肺癌病人外显子组测序及基因组变异分析

在全世界范围内，肺癌是导致肿瘤死亡率居高不下的最主要原因之一，每年约造成140万人死亡。本研究中，我们利用全外显子组测序的方法对9例中国非小细胞肺癌(NSCLC)肺癌病人进行肿

学位

非小细胞肺癌外显子组测序高频突变抑癌基因

浅谈电梯常见故障及排除方法

本文通过对荣华二采区10

期刊

数字城区三维建模技术及其可视化实现

该文围绕数字城区景观三维重建过程中基本地物建模及可视化实现这一中心问题,开展了下列工作.一是针对实践中发现的模型拓扑关系描述不清晰带来的模型库管理不便,使程序维护

学位

三维建模技术MDL多分辨率模型拓扑关系三维漫游算法

谈班主任工作中的心理健康教育

摘要：当前实行素质教育时期，教育不再片面注重学生的成绩，而是更为重视学生素质的培养。初中生正处于青春期，由儿童向成年人过渡，伴随着生理的成熟，心理也产生了变化，他们认为自己已经是大人，不再对父母过于依赖，对父母和学校的管束比较反感，容易受到外部环境的干扰，而是追求“独立”和“个性”，需要别人的认同。但是，他们本身缺乏社会经验，心理还不成熟，如果没有正确的引导，学生会出现心理畸形，处理不当还会走上犯

期刊

班主任心理健康学生教育

超宽带室内定位系统接收机的设计与实现

随着数据业务和多媒体业务的快速增加,人们对定位与导航的需求日益增大,尤其在复杂的室内环境。超宽带脉冲无线电(IR-UWB)技术,利用极窄脉冲的低功耗,以及传输具有的良好的时

学位

超宽带定位室内定位脉冲能量接收机检波电路仿真验证

基于XML的内容管理系统设计

该文对内容管理系统的概念、功能进行了详细的介绍,提出了一套内容管理系统的设计方案,给出了该系统的部分功能和API实现,对系统使用到的部分关键技术进行了探讨和研究.该系

学位

内容管理内容管理XMLXML内容检索内容检索工作流工作流

室旁核中多巴胺递质含量变化及肾神经与肾性高血压的关系研究

目的:肾性高血压模型的建立;用大鼠脑定位仪、微透析及电化学检测技术建立大脑核团神经递质含量测定的方法。比较保留肾神经组和去除肾神经组大鼠肾性高血压模型中的动脉血压

学位

室旁核多巴胺肾性高血压肾交感神经血管经张素Ⅱ肾素醛固酮

基于单个汉字字符的字体识别研究

与本文相关的学术论文