面向印刷体识别的后处理方法

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:djsfhkjthrekl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文对印刷体识别后处理技术进行了深入的研究,目标就是从理论,算法和应用三个层次上研究如何校正文本图像识别错误,提高系统识别率.研究工作主要包括以下几个方面: 首先,指出识别后处理与文本校对最大的差异,并提出了后处理系统所要解决的三个问题.分析比较人的校对活动与计算机进行识别后处理活动的相似性,提出识别后处理过程的双重性,由此引出同样具有双重随机过程的HMM模型来解决该问题. 其次,研究并讨论了印刷体识别中常见的相似字,以及相似字误识不对称性对HMM纠错造成的影响,提出不对称性影响因子的概念,将其作为权值加入HMM模型进行修正,这一改进有助于降低误纠率. 最后,针对标点符号的独有特点,结合识别系统切分模块提供的信息以及规则,提出了一种标点符号后处理的新方法. 实验结果表明,该方法在处理印刷体识别文本时,可以得到很好的应用,识别的正确率得到提高,并有效的降低了误纠率.
其他文献
过去十年中,基于图像的绘制技术成为了计算机图形学和视觉的交叉研究领域。这种技术可以保存精细的细节和复杂的光照场景。但是,由于摄影器材的缺陷,在图像采集过程中,会不可避免
动态几何是20世纪80年代诞生的,自从诞生以来,它迅速发展,在教育软件、CAD/CAM、计算机游戏软件的设计与开发诸多方面都有广泛的应用。在教育软件方面,它带来了教学内容、教学方
本文的工作是将贝叶斯网扩充为带区间参数的贝叶斯网,具体工作分为以下几部分: (1)将区间概率引入概率表,使得贝叶斯网对模糊事件和值不确定事件的处理能力更强,扩展了普通贝
可扩展标记语言XML是一种半结构化的数据描述语言,因其具备高可读性、跨平台性和可扩展等特性,在互联网领域被广泛应用。XML不仅是一种优秀的数据存储格式,而且还是互联网中
无线传感器网络以数据为中心的特性,使得数据在其中占据着尤为重要的地位。部署在观测区域的大量传感器节点搜集数据,并将其反馈给基站。本文探讨现今无线传感器网络中的错误数
P2P流媒体技术在有限的资源环境下,能够满足快速增长的用户需求,成为流媒体研究中一个挑战性的课题. 节点选择机制作为P2P流媒体系统的核心,影响了系统形成的拓扑结构,以
半导体技术的发展、多核多线程体系结构的逐渐成熟,使得数据流编程模型重新成为人们的研究热点.对于这种编程模型,我们的编译器及运行时系统是否需要改进、以及可以为其提供
空间数据库中存储着海量的数据和信息,从中导出所隐含的知识,并将这些知识作用于现有的数据,得到新的知识和数据,有助于提高GIS的应用水平,并对建立智能化GIS起到极大的促进
20世纪90年代以来,信息产业迅猛崛起,已逐步发展成为世界上最大的产业,成为经济增长的主要驱动力量。我国信息产业“十五”期间发展迅速,各项指标的增长幅度均超过20%以上。产业总
证券投资目前已成为我国资本市场上最活跃的投资方式。由于证券投资的高风险性,投资者往往选择若干种资产进行搭配投资以降低非系统风险,也就是所谓的投资组合。本文把国内外证