蒙古文古籍识别技术的研究

来源 :内蒙古大学 | 被引量 : 10次 | 上传用户:yumenglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面,是人类文化的宝贵遗产。但图像格式的古籍文档不利于研究人员的编辑,检索、以及更进一步的统计分析。因此本文以木刻印刷的《御制蒙古文甘珠尔经》为研究对象,对蒙古文古籍文档的识别进行了深入研究,对蒙古文古籍的识别提出了行之有效的解决方案,以期推动蒙古文古籍文档的电子化,为蒙古文古籍的挖掘和利用提供便利,从而促进蒙古文化的传播和发扬光大。本文分析了蒙古文以及蒙古文古籍的特点,在此基础上提出了蒙古文古籍识别的方法。在预处理阶段,通过对古籍的自身特点的分析,本文选取合适的方法对蒙古文古籍文档进行倾斜校正,二值化和去噪处理。在文档分割阶段,本文依据水平投影对文档图像进行列切分,然后根据最大连通域对每一列进行词切分。在单词切分后,进一步依据主干线将蒙古文单词切分成字元(Glyph Unit Abbr. GU)。每个字元由不超过三个蒙古文字母组成。在特征提取阶段,我们根据分类要求,共提取字元的八种特征:LP, Euler number, BD, DCT, DWT, PCA, Con&Pro, and EPI。在分类阶段,我们采取三步分类的方法。在第一步,我们利用决策树进行将所有的字元分到九组字元中的一组。在第二步,对每组字元,我们利用5个BP神经网络对该组字元进行识别。5个神经网络的输入分别为字元的五种特征向量。在第三步,通过对5个神经网络返回的5组结果综合生成每组字元的最终的识别结果。对每组识别后的结果,我们采取基于加权编辑距离的错误校正算法对结果进行校正,并最终生成编码的蒙古文古籍文档。本论文共选取了20页蒙古文古籍文档进行了实验。统计实验结果,蒙古文单词字元切分准确率96.2%,最终单词识别的准确率达到了71%。由于蒙古文古籍是由多人书写木刻印刷而成,每一个文字存在多个不规范的变体,字母的重叠相交的问题比较明显,所以切分和识别难度较大。所以本文在文蒙古文古籍的识别率是令人满意的。
其他文献
TTCN-3是ETSI提出并维护的一种标准测试描述语言,利用它可以进行多种通讯领域上的各种系统测试。TTCN-3的应用已突破传统的网络协议测试领域,在一些大型的软件测试中得到了成
计算机技术的普及使得各行各业积累了大量的数据信息,人工处理这些大规模的数据已变得不现实。因此,数据挖掘技术应运而生了。在数据挖掘领域中聚类技术是其中的一个热点,聚
随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,出现了海量的生物分子数据,这使得科学家们需要分析大量DNA数据。如何充分利用这些数据,进而揭示这些数据的内涵
随着网络技术的快速发展和中大型数据库系统的出现,海量的数据被收集、存放在这些数据储存库中。但是,人们仍然没有掌握强有力的工具去理解它们所带来的潜在知识,这就导致了
随着信息技术和经济全球化的不断发展,条码技术的应用范围越来越广泛。由于一维条码受到信息容量小的限制,需要依赖数据库,因此使用具有一定的局限性。为解决这一问题,出现了
模型驱动架构(Model Driven Architecture,MDA)是由OMG定义的新一代以模型为中心的开发方法学。基于MDA的软件生命周期就是以模型为载体并由模型转换来驱动的过程。MDA的核心
现代社会是一个高度交互的社会,身份鉴别己经渗透到日常生活的每一个方面。借助身份标识物品(如钥匙、证件等)和身份标识知识(如口令、密码和暗语等)的传统身份鉴别方法已不
本文是苏州某管理部门开发的“虚拟太湖流域”项目中的一个子课题,主要内容是在PC (Personal Computer)平台上模拟出视角在湖面下观察到的水下视觉效果。水下场景以其复杂性
随着计算机和网络的广泛普及,它已经应用到了社会的各个行业中,计算机的软件系统也在日新月异地改革。尤其是隶属软件工程中软件维护阶段的软件再工程就更为重要,原因是以前
入侵检测是近10余年发展起来的一种动态的监控、预防或低于系统入侵行为的安全机制。主要通过监控系统、网络的行为、状态以及系统的使用状况,来检测用户是否越权使用以及系