印刷体汉字识别系统的研究与实现

被引量 : 0次 | 上传用户:jiangqiqi77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字已有数千年的历史,也是世界上使用人数最多的文字。然而,汉字是非字母化、非拼音化的文字,因此,快速高效地将汉字输入计算机,是信息处理的一个关键问题。人工键入劳动强度大,对于大量的已有文档资料,汉字自动识别输入就成为了最佳的选择。它在中文信息处理,办公自动化,机器翻译,人工智能等高科技领域,都有着重要的实用价值和理论意义。 本文在研究当前光学字符识别(OCR)系统及相关识别技术的基础上,设计开发了一套印刷体汉字识别系统。主要工作如下: 其一,为了解决单个分类器分类效果不理想的情况,本文从分类器集成的角度出发,设计了多个具有特征互补,匹配方法不同的分类器,有效的提高了汉字分类的识别效果。 其二,为了提高图像预处理质量,解决二值化过程中全局二值化适应性差,局部二值化速度慢的问题,本文提出了一种基于文字边界轮廓提取的二值化方法。算法首先提取出文本图像的边界轮廓,然后根据已提出的边界轮廓和原图的信息,对轮廓内的空白部分进行填充来完成图像的二值化。实验结果表明,此方法速度明显快于局部二值化方法,二值化效果优于全局法。 此外,本文对汉字识别过程中的关键步骤进行了研究,提出了一些新的方法:1)在版面分析中,利用数学形态学方法,采用基于组件的方法来进行版面分析;2)在图像的倾斜校正中,提出了基于最佳特征点的迭代最小二乘法算法;3)在特征提取方面,给出了汉字结构点,连通体,封闭区域,笔划等特征的提取方法。在对笔划撇、捺提取中提出了一种基于方向加权的笔划提取方法。 总之,利用以上算法得到的印刷体汉字识别系统的汉字平均识别率达到95%,平均识别速度为6s/每百字。
其他文献
本研究以城市污水为研究对象,进行生物硅藻土污水处理技术中试研究,以期探索一种符合我国国情、适应小城镇污水处理的脱氮除磷应用技术。研究内容主要包括:1、生物硅藻土反应
近年来,随着贸易全球化进程的加快,我国港口通过能力出现了很大的缺口,港口建设项目呈现出大规模增长的趋势,而大批量的港口建设项目,需要更多的资金注入。虽然目前我国港口建设项
由于我国公路建设事业近年来的迅猛发展,高等级公路不断向山区延伸,这些地方沟壑纵横,高填深挖在所难免,因此需要修筑大量的支挡结构物,所以研究开发新型的高大支挡结构物成为有广
为了提高±800 kV特高压直流输电线路带电作业效率和安全性,进行作业区域的有限元建模分析,提出一种基于图谱特征分析的±800 kV特高压直流输电线路带电作业方式的有限元建模
目的探讨以保全肢体、终止截肢为临床治疗终点的Wagner3~5级糖尿病足创面的临床处理与治疗规他一方法以102例Wagner 3~5级糖尿病足患者创面采用MEBO+外科清创术治愈的经验为
<正>近日,一位在某村驻村的乡镇干部谈及驻村感受时说,干部驻村不是"住村",而是要改"驻村"为"助村",让村民实实在在感受到各级干部"驻村"带来的变化和实惠。笔者以为,干部"驻
期刊
目的:探讨腹腔镜胆囊切除术(laparoscopic cholecystectomy,LC)治疗老年急性胆囊炎的临床效果。方法:选取行腹腔镜胆囊切除术的老年急性胆囊炎患者87例为LC组,同期行开腹胆囊切除
文章研究可装配性设计中的产品装配建模,提出一种以装配体为对象并能充分反映装配过程特点的二叉树装配模型。应用面向对象技术,建立了相应的数据结构及应用框架,为可装配性评价
<正>"我们像双翼的神马,飞驰在草原上,啊哈嗬咿,草原千里滚绿浪,水肥牛羊壮……"偌大的包钢展厅里,《草原晨曲》的旋律此起彼伏,歌声悠扬洪亮,激昂中饱含沧桑,歌者的嘴唇抖动
国际工程承包是一项充满风险的事业,利润和风险始终是并存的。成败的关键在于如何正确的看待风险,正确的对于风险进行评估、分析,并采取有效的措施对风险进行预防和控制,就可