基于HMM的满文文本识别后处理的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:yj8888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文讨论了脱机手写体满文文本识别后处理系统的设计和实现,其中采用了在文本识别后处理中应用最广泛的技术,即基于隐马尔可夫模型(HMM)的后处理和基于词匹配的后处理方法。 论文首先叙述了少数民族语言信息化的现状及满文识别后处理的意义和必要性。从总体上描述了满文文本识别系统的结构和后处理在整个识别系统中的作用。然后,列举了在文本识别后处理过程中应用的比较成熟的和正在探索的一些方法。主要包括:基于词匹配的文本识别后处理、基于句法-语义的文本识别后处理、基于人工神经网络的文本识别后处理、基于统计方法的文本识别后处理。并且在讨论基于统计的文字识别的后处理时,着重的讨论了隐马尔可夫模型(HMM)在脱机手写体满文文本识别后处理中的基本思想和方法。在采用隐马尔可夫模型(HMM)进行文本识别后处理时,提出了一种有效估算单字识别的结果可信度(即单字识别置信度)的方法,准确的估算单字识别结果对进一步进行识别后处理具有重要的意义。接着对影响后处理的几个重要因素:语料库的规模,语料的选取,数据平滑做了重点讨论。 在讨论词匹配的后处理方法时,首先分析统计方法的不足:统计语言模型仅仅考虑了语言的上下文关系,但不考率任何的语法和语义关系。在实现中假定一个满语的语句是一个一阶或二阶马尔可夫链,这样实现简化的假设使发生错误的概率进一步增大。事实上,马尔可夫链只对非单词词组有较好的连接的关系。转移概率本身是由训练语料库决定,与实际文本有一定的偏差。然后介绍了词匹配方法的思想,最后提出词匹配法和隐马尔可夫模型(HMM)相结合的方法。两种方法的结合大大的提高了满文识别系统的识别率。最后对以后的工作提出了设想。 本文讨论的方法已应用在脱机手写体满文文本识别系统中,经过后处理模块的处理后,系统的识别率有一定的提高。但是,后处理模块发挥的好坏与单字识别模块的识别率有密切的关系,也就是说,较高的单字识别的识别率是后处理发挥良好作用的前提。
其他文献
当前石油天然气行业在生产经营过程中对信息技术的应用,处于各地区、各部门独立分散的状况。为节流增效,集成整条供应链的各环节业务,成为油气公司当务之急。有效的解决办法
面对“信息爆炸”的现实,人们所遭遇的窘境是难于从海量数据中迅速地获取有用的信息。数据挖掘技术的产生和发展为人们摆脱这种窘境提供了强有力的工具。数据挖掘本质上说是
本文对UML和.net技术等基础理论进行了综述,探讨了分布式系统的设计和实现方法。并以研究生成绩管理系统为例,详细讨论了系统的建模、分析、设计过程,阐述了系统开发中遇到的
本文试图通过对并行数据库原理的分析,在兼顾应用系统的伸缩性、可用性和可维护性的基础上,找出可能影响并行数据库系统吞吐量和稳定性的关键设计,同时借助银联处理中心系统集成
随着计算机硬件和软件技术的飞速发展,嵌入式系统的硬件规模和性能得到了极大的提高,相应的,嵌入式系统软件和应用软件的复杂性和规模也曰益提高,同时嵌入式系统的特殊性决定了运
学位
随着科学技术的发展,现代战争呈现出信息化、参战力量多样化、空间多维化、作战行动复杂化等特点,其作战模拟仿真系统作为一种典型的复杂系统,应具有动态性、复杂性、适应性、非
网络管理是保证一个网络可靠并高效运行的重要过程。故障管理是网络管理的主要功能之一。故障定位则是网络故障管理的核心内容,故障定位、故障识别成为当今网络故障管理的难
随着因特网迅速发展和计算机黑客造成的威胁越来越大,各种对网络数据进行防护手段越来越受到用户的青睐,对于网络的通信进行数据加密以保护通信也就显得十分必要.论文首先概
本文通过介绍Windows9X操作系统虚拟环境的搭建与实现特点,对Windows环境下的虚拟设备驱动程序模型VXD进行了深入的研究与开发。通过分析总结驱动程序访问不同硬件资源时的特