中英文混排文字识别系统的设计与实现

被引量 : 0次 | 上传用户:fengye3355
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际间技术交流的发展,多语言文档越来越普遍,尤其是在高技术领域,通常都有大量的外文术语。在我国,最为常见的是中英文混排文档。多语言文档的出现也对OCR技术提出了新的要求,与单一文档识别不同的是,混排文档中由于不同语言特点的差别,要求对文档中出现的不同语言加以区分,采用不同的识别方法进行识别。本文在研究当前光学字符识别(OCR)系统及相关识别技术的基础上,设计开发了一套印刷体文字识别系统。主要工作如下:其一,针对现有字符切分方法在复杂版式环境下不能正确处理图标和花边,在中英文混排环境以及不同字号文字混排情况下不能准确的进行切分等问题,提出了一种基于汉字周期及识别反馈的混排文字切分方法。该方法中采用了基于连通区域合并的行切分算法更为准确的完成了文本图像的行切分,采用了基于字符间距周期的中文字符分离算法,实现了对连通区域类型的判定,最后采用了基于识别的汉字部件合并算法,完成了对左右结构汉字的连通区域合并。实验表明,此方法的字符切分准确率优于传统的基于投影的行字切分算法。其二,设计并实现了一个通用的汉字识别软件框架,其设计充分考虑了用户使用的需求以及软件更新和维护的要求,提供了一个可移植的、可伸缩的灵活的文字识别软件平台。基于此平台,用户可以根据输入图像的特点进行动态的算法定制,改变其执行轨迹,提高识别效率;用户也可以对同一图像采用不同的算法来进行识别,从而实现对算法性能的比较。而对于软件维护人员来讲,算法的更新和维护工作在此平台下也变的更为简单和方便,只需进行配置文件的修改和算法包的拷贝和替换工作其三,本文对文字识别过程中一系列关键步骤进行了深入的研究,对其各种实现算法进行较为深入的分析和比较,给出了各自的优缺点和适用场景。总之,利用以上算法得到的印刷体汉字识别系统的平均识别率达到96%以上。每百字的平均识别时间为6秒。对中英文混排文本图像中英文及其他符号的平均识别率达到85%以上。
其他文献
我国在玉米低温真空连续干燥装备方面取得了突破性研究和开发,但缺乏相关的基础研究,针对这一现状,本文从试验和理论两个方面对玉米低温真空干燥进行了研究。通过对玉米低温
渭河流域是我国西部非常重要的区域,流域是以半干早地区为主的黄土高原地区,自然环境十分脆弱,生态环境极端恶化,严重的土壤侵蚀和频繁的干旱并存,严重的水资源短缺、水质污染等问
随着我国综合国力的不断增强,基础设施方面的投资力度不断加大,道路的兴建数量逐年增多,尤其是高等级公路的建设占有相当的比重,使得我国交通行业有了飞速的发展,人们充分体
从1995年我国引进的第一部韩国影视剧《爱情是什么》开始,韩国影视剧就像潮涌般地出现在我国的各个地方电视台和影院,甚至连我们的国家电视台——中央电视台,也开始不惜重金买进
教学评价对课程目标的实现起着导向、监控的作用。根据评价的目的、功能、方法,教学评价可分为终结性评价和形成性评价。终结性评价的目的是为了衡量教学的成败,对学生进行归类
互联网技术的突飞猛进,使得媒体也从传统的泥沼中走出来,升级转变为以数字技术为基础的新媒体,并渐而形成了兼容并包的新媒体环境。本文以新媒体环境为切入点,对我国河南省的
<正>2019年2月20日获悉,中国正在准备建设新的液化天然气进口设施,同时也在扩建粤港澳大湾区地区现有的液化天然气终端。该地区包括香港、澳门两个特别行政区和广东省其他9个
[目的]探讨应用脊柱后路内固定加三柱植骨融合术治疗不稳定性腰椎管狭窄症的临床疗效。[方法]回顾总结2007年4月2008年10月采用脊柱后路内固定加三柱植骨融合术治疗不稳定性
使命呼唤担当 使命引领未来$$抚州广播电视大学党委书记、市高等职业技术教育中心党委书记 谢晓宇$$抚州广播电视大学是基于网络教育、全市唯一的成人高校。中国特色社会主义
报纸
信息资源是一种宝贵的财富,被列为21世纪最重要的资源。在信息化飞速发展、信息量爆炸式增长的今天,信息资源的分散与割裂一直是横亘在我国信息化建设道路上的一大障碍,而作为拥