基于深度学习和知识策略的蒙古文古籍识别研究

来源 :内蒙古大学 | 被引量 : 13次 | 上传用户:etoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文古籍为研究蒙古社会政治和历史文化提供了丰富和可靠的资料。为更好地抢救、整理和利用蒙古文古籍,内蒙古大学图书馆启动了古籍电子化工作,将其扫描转换成图像格式存储,并向读者提供了电子化服务。但是,古籍图像不能再编辑,且检索效率低,分析和挖掘难度大,亟需利用文字识别技术将其转换为文本文档。蒙古文古籍采用木刻雕版工艺印刷,具有排版不够规整、字形差异显著、文字颜料扩散和脱落等特点,给识别工作带来很大挑战。本文以《御制蒙古文甘珠尔经》为研究对象,在蒙古文古籍识别方面开展了一系列研究,主要内容如下:1.本文提出了蒙古文古籍单词的有效识别方法。在分析整词识别和基于切分的单词识别两种方案优缺点的基础上,结合蒙古文古籍单词特点,提出了整词识别和基于切分的单词识别的混合策略,对高度较低且字形基元切分难度大的单词采用整词识别的方法进行识别,对其余单词采用基于字形基元切分的识别方法进行识别,通过实验确定了两种方法的选择依据。2.本文提出了半自动样本选取方法。为达到理想的识别精度,需要大量样本训练识别中使用的卷积神经网络,为克服人工选取样本效率低的缺点,提出了半自动的样本选取方法,首先利用分类器对未分类的全部样本进行粗分类,然后人工去除每类中不正确的样本,最后将每类中剩余样本作为最终训练样本。训练样本选取分类器的过程采用了书写者适应性调整、利用形态学方法生成伪训练样本、多次循环策略。3.本文提出了蒙古文古籍单词的字形基元切分方法。由于蒙古文古籍单词存在严重的形变和字形基元重叠现象,针对机器印刷体蒙古文单词的切分方法难以奏效。分析了蒙古文古籍单词外形特征,提出了基于轮廓分析的字形基元切分方法,首先提取单词轮廓上的关键点,其次利用轮廓关键点定位单词主干线,最后利用轮廓关键点和主干线信息生成分割线。为简化轮廓关键点检测步骤并避免轮廓噪声的影响,利用多边形作为单词外轮廓的近似。4.本文提出了三种基于知识的策略来提升单词识别精度。在基于切分的单词识别方法中,字形基元的识别结果用于生成单词的识别结果,通过分析识别结果,发现导致单词识别错误的原因是字形基元切分不合理和字形基元识别错误。为进一步提升单词识别精度,结合蒙古文的构词知识提出三种策略并应用于字形基元识别环节,分别是整合主干线信息策略、字形基元分组策略,以及识别欠切分和过切分片段策略。5.本文提出了古典蒙古文词典的构建方法和基于字形基元相邻规则的错误检测方法,并评测了基于词典和基于字形基元相邻规则的错误检测方法各自的性能,分别采用加权编辑距离模型和噪声信道模型进行错误校正,根据识别结果和字形知识为这两种模型分配编辑操作的权重,结合识别方法简化噪声信道模型以减少计算量。
其他文献
在国家大力推进治理体系和治理能力现代化的背景下,高校继续教育治理探索应该广泛借鉴公共治理研究的理论,破解在办学实践中遭遇到的"管理化"危机。从利益相关者的视角廓清参
作为物流业的一个重要组成部分。快递业成为经济发展的最大受益者,并成长为名副其实的朝阳产业。极好的市场前景使已经身在其中斡旋和不断加入的外资、国有、民营快递企业陷入
本文通过对长沙市城乡社区的实证调查,对居民参与社区志愿服务的意愿和社区公共服务居民满意度进行考察,通过logistic回归分析等统计分析方法,深入剖析居民参与社区志愿服务
利用网络信息计量学的原理和方法,借鉴网络课程评价规范标准,对网络课程的评价过程进行了研究,提出了一种计量型的网络课程评价方法,能较客观地反映网络课程的质量,有助于网
<正> 据我所知,张曙光对奥哈拉的诗一直十分喜欢(或者,他是当代诗人中第一位注意到奥哈拉的人)。因此,我看到他的《致奥哈拉》一诗一点也不惊奇。这样一首诗似乎就应该是由他
赫伯·凯莱赫(Herb Kelleher),1931年出生于美国新泽西州,毕业于纽约大学法学院。1971年6月18日他与罗林·金(Rollin King)共同创建了西南航空公司;1977年西南航空股票在纽约
以单位质量花生壳中白藜芦醇含量(mg/g)为响应值,乙醇体积分数、提取温度和提取时间为响应变量,利用响应面法(RSM)确定最佳工艺条件。测定白藜芦醇粗提物对1,1-二苯基-2-三硝基苯
提高教育质量是学校工作永恒的主题和无上的追求 ,随着我国高等教育招生规模的日益扩大 ,教育大众化的进程逐步加快 ,高等教育质量问题随之引起社会各界的广泛关注 ,高校扩招
随着我国医疗改革的不断深入,提高患者医疗满意度已经成为医疗体系改革的首要目标,因此,医护人员和患者群体之间的关系冲突成为目前医疗领域的热门话题。目前,中国医疗卫生体
从防水密闭墙受力角度出发,通过建立墙体物理模型,分析了影响墙体承压能力及稳定性的因素,并进行了定性及定量评估。经在某矿区的成功应用,证明了在特定地质条件下,所建立的