蒙古文扫描识别系统自动校正算法及实验

来源 :第十届全国少数民族语言文字信息处理学术研讨会 | 被引量 : 0次 | 上传用户:sikongshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文用<蒙古文印刷体扫描识别系统>,对<那·赛音朝克图文选>卷五中四篇文章做了扫描识别处理,对其扫描结果的识别错误进行统计分析后提出了相应的校正算法,并做了校正实验.实验结果证明了文章提出的校正算法的可行性和可靠性(其召回率为97.28%,准确率为97.64%).但是,本文只是基于<蒙古文印刷体扫描识别系统>的现状,做了一些探讨,许多方面还需要进一步完善.对于拓展一条旨在扩充和更新蒙古语语料库内容的扫描识别实用通道来说,这仅仅是一次探索性尝试.
其他文献
本文介绍了我们开发的针对不同的客户群体纳西象形文信息处理系统,解决了纳西象形文的信息化的需要.纳西象形文信息处理平台包括纳西象形文字库、输入法机及相应的应用软件,
本文通过介绍我们的基于MSWord二次开发的解决方案,集中讨论契丹小字编码方法、字体字库制作、输入法开发和契丹小字编辑排版,查询系统的实现.
本文基于QT介绍了一个支持垂直显示的框架并给出了其具体实现,为实现文本的垂直显示、实现较完善的竖排系统奠定了基础.
近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始
会议
本文基于KDE的文本处理组件Kate设计并实现了一个支持从上向下从左向右和从上向下从右向左显示方向的组件,该组件对竖排的支持使得KDE中所有使用该组件的应用程序都自动支持
全球化进程中,软件(包括操作系统)要能支持和处理多种语言文字并符合其相应的文化习俗,让全世界的用户都能以他们自己的语言文字、文化习惯使用软件.多语言处理软件,就要涉及
本文首先介绍了蒙古文主要特征和有关基于Unicode编码标准的OpenType字库,然后主要讨论了蒙古文OpenType字库设计方法与脚本编写,然后将所写脚本放到Volt中进行测试.
目前藏文字处理系统普遍所使用的TTF藏文字库具有文件大、编码混乱、系统间互不兼容等诸多缺点,OpenType字库不仅保持了TTF字库的优点而且还可以克服TTF的缺点.本论文对设计O
由于ISO/IEC10646和Unicode国际标准对藏文是按拼音文字进行编码的,用传统的字库技术进行藏文文字处理,遇到了最终显示字形不存在确定码位的问题.本文介绍了一种能满足藏文处
本课题实现了英文、蒙文和汉文三个语种之间的相互快速翻译功能.在系统中不仅实现了高速检索功能,还实现了一个成熟软件所具备的其它诸功能.目前,本课题共录入了约10万个词条