论文部分内容阅读
蒙古文古籍为研究蒙古社会政治和历史文化提供了丰富和可靠的资料。为更好地抢救、整理和利用蒙古文古籍,内蒙古大学图书馆启动了古籍电子化工作,将其扫描转换成图像格式存储,并向读者提供了电子化服务。但是,古籍图像不能再编辑,且检索效率低,分析和挖掘难度大,亟需利用文字识别技术将其转换为文本文档。蒙古文古籍采用木刻雕版工艺印刷,具有排版不够规整、字形差异显著、文字颜料扩散和脱落等特点,给识别工作带来很大挑战。本文以《御制蒙古文甘珠尔经》为研究对象,在蒙古文古籍识别方面开展了一系列研究,主要内容如下:1.本文提出了蒙古文古籍单词的有效识别方法。在分析整词识别和基于切分的单词识别两种方案优缺点的基础上,结合蒙古文古籍单词特点,提出了整词识别和基于切分的单词识别的混合策略,对高度较低且字形基元切分难度大的单词采用整词识别的方法进行识别,对其余单词采用基于字形基元切分的识别方法进行识别,通过实验确定了两种方法的选择依据。2.本文提出了半自动样本选取方法。为达到理想的识别精度,需要大量样本训练识别中使用的卷积神经网络,为克服人工选取样本效率低的缺点,提出了半自动的样本选取方法,首先利用分类器对未分类的全部样本进行粗分类,然后人工去除每类中不正确的样本,最后将每类中剩余样本作为最终训练样本。训练样本选取分类器的过程采用了书写者适应性调整、利用形态学方法生成伪训练样本、多次循环策略。3.本文提出了蒙古文古籍单词的字形基元切分方法。由于蒙古文古籍单词存在严重的形变和字形基元重叠现象,针对机器印刷体蒙古文单词的切分方法难以奏效。分析了蒙古文古籍单词外形特征,提出了基于轮廓分析的字形基元切分方法,首先提取单词轮廓上的关键点,其次利用轮廓关键点定位单词主干线,最后利用轮廓关键点和主干线信息生成分割线。为简化轮廓关键点检测步骤并避免轮廓噪声的影响,利用多边形作为单词外轮廓的近似。4.本文提出了三种基于知识的策略来提升单词识别精度。在基于切分的单词识别方法中,字形基元的识别结果用于生成单词的识别结果,通过分析识别结果,发现导致单词识别错误的原因是字形基元切分不合理和字形基元识别错误。为进一步提升单词识别精度,结合蒙古文的构词知识提出三种策略并应用于字形基元识别环节,分别是整合主干线信息策略、字形基元分组策略,以及识别欠切分和过切分片段策略。5.本文提出了古典蒙古文词典的构建方法和基于字形基元相邻规则的错误检测方法,并评测了基于词典和基于字形基元相邻规则的错误检测方法各自的性能,分别采用加权编辑距离模型和噪声信道模型进行错误校正,根据识别结果和字形知识为这两种模型分配编辑操作的权重,结合识别方法简化噪声信道模型以减少计算量。