蒙古文古籍识别技术的研究

来源 :内蒙古大学 | 被引量 : 10次 | 上传用户：yumenglu

【摘要】

：

目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面,是人类文化的宝贵遗产。但图像

【作者】

：

苏向东

【机构】

：

内蒙古大学

【出处】

：

内蒙古大学

【发表日期】

：

2011年01期

【关键词】

：

蒙古文古籍字元切分特征提取分类器设计结果平滑

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面,是人类文化的宝贵遗产。但图像格式的古籍文档不利于研究人员的编辑,检索、以及更进一步的统计分析。因此本文以木刻印刷的《御制蒙古文甘珠尔经》为研究对象,对蒙古文古籍文档的识别进行了深入研究,对蒙古文古籍的识别提出了行之有效的解决方案,以期推动蒙古文古籍文档的电子化,为蒙古文古籍的挖掘和利用提供便利,从而促进蒙古文化的传播和发扬光大。本文分析了蒙古文以及蒙古文古籍的特点,在此基础上提出了蒙古文古籍识别的方法。在预处理阶段,通过对古籍的自身特点的分析,本文选取合适的方法对蒙古文古籍文档进行倾斜校正,二值化和去噪处理。在文档分割阶段,本文依据水平投影对文档图像进行列切分,然后根据最大连通域对每一列进行词切分。在单词切分后,进一步依据主干线将蒙古文单词切分成字元(Glyph Unit Abbr. GU)。每个字元由不超过三个蒙古文字母组成。在特征提取阶段,我们根据分类要求,共提取字元的八种特征：LP, Euler number, BD, DCT, DWT, PCA, Con&Pro, and EPI。在分类阶段,我们采取三步分类的方法。在第一步,我们利用决策树进行将所有的字元分到九组字元中的一组。在第二步,对每组字元,我们利用5个BP神经网络对该组字元进行识别。5个神经网络的输入分别为字元的五种特征向量。在第三步,通过对5个神经网络返回的5组结果综合生成每组字元的最终的识别结果。对每组识别后的结果,我们采取基于加权编辑距离的错误校正算法对结果进行校正,并最终生成编码的蒙古文古籍文档。本论文共选取了20页蒙古文古籍文档进行了实验。统计实验结果,蒙古文单词字元切分准确率96.2%,最终单词识别的准确率达到了71%。由于蒙古文古籍是由多人书写木刻印刷而成,每一个文字存在多个不规范的变体,字母的重叠相交的问题比较明显,所以切分和识别难度较大。所以本文在文蒙古文古籍的识别率是令人满意的。

其他文献

TTCN-3测试执行日志的可视化研究与实现

TTCN-3是ETSI提出并维护的一种标准测试描述语言,利用它可以进行多种通讯领域上的各种系统测试。TTCN-3的应用已突破传统的网络协议测试领域,在一些大型的软件测试中得到了成

学位

TTCN-3日志可视化测试

聚类算法及基于簇模式聚类集成研究

计算机技术的普及使得各行各业积累了大量的数据信息,人工处理这些大规模的数据已变得不现实。因此,数据挖掘技术应运而生了。在数据挖掘领域中聚类技术是其中的一个热点,聚

学位

聚类分析层次聚类簇模式聚类集成

基于SVM分类机的DNA序列分类方法

随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,出现了海量的生物分子数据,这使得科学家们需要分析大量DNA数据。如何充分利用这些数据,进而揭示这些数据的内涵

学位

SVMDNA序列分类特征向量分类超平面多类分类

基于综合度量的划分聚类研究

随着网络技术的快速发展和中大型数据库系统的出现,海量的数据被收集、存放在这些数据储存库中。但是,人们仍然没有掌握强有力的工具去理解它们所带来的潜在知识,这就导致了

学位

数据挖掘聚类分类数据K-ModesK-Prototypes

中心区域可视二维条码的设计和编码方法

随着信息技术和经济全球化的不断发展,条码技术的应用范围越来越广泛。由于一维条码受到信息容量小的限制,需要依赖数据库,因此使用具有一定的局限性。为解决这一问题,出现了

学位

可视二维条码视觉选择性注意机制模式编码误差扩散

MDA中的面向方面建模及映射研究

模型驱动架构(Model Driven Architecture,MDA)是由OMG定义的新一代以模型为中心的开发方法学。基于MDA的软件生命周期就是以模型为载体并由模型转换来驱动的过程。MDA的核心

学位

模型驱动架构面向方面编程面向方面建模统一建模语言UMLATLAS转换语言ATL

虹膜识别系统的若干算法研究

现代社会是一个高度交互的社会,身份鉴别己经渗透到日常生活的每一个方面。借助身份标识物品(如钥匙、证件等)和身份标识知识(如口令、密码和暗语等)的传统身份鉴别方法已不

学位

粗定位Hough变换虹膜定位线段标记特征提取过零检测支持向量机

基于GPU的水下环境的实时模拟

本文是苏州某管理部门开发的“虚拟太湖流域”项目中的一个子课题,主要内容是在PC (Personal Computer)平台上模拟出视角在湖面下观察到的水下视觉效果。水下场景以其复杂性

学位

GPU快速视差遮挡映射Gerstner波函数B样条

软件再工程研究及应用

随着计算机和网络的广泛普及,它已经应用到了社会的各个行业中,计算机的软件系统也在日新月异地改革。尤其是隶属软件工程中软件维护阶段的软件再工程就更为重要,原因是以前

学位

软件再工程遗留系统正向工程逆向工程构件J2EE多层次架构

基于数据挖掘和复杂事件处理的分布式入侵检测系统的研究

入侵检测是近10余年发展起来的一种动态的监控、预防或低于系统入侵行为的安全机制。主要通过监控系统、网络的行为、状态以及系统的使用状况,来检测用户是否越权使用以及系

学位

入侵检测数据挖掘聚类分析关联规则复杂事件处理Oracle CEP IDE

蒙古文古籍识别技术的研究

与本文相关的学术论文