论文部分内容阅读
藏文古籍是世界文化宝库中的历史瑰宝,内容涉及宗教、文化、政治、经济等等,不仅是研究藏族历史和文化变迁不可多得的珍贵史料,更是中华民族这个大家庭繁荣昌盛的历史见证。岁月侵蚀加之保存不当使得藏文古籍遭受了不可逆转的损坏、退化,因此基于藏文古籍图像无法再次编辑、检索效率低以及分析挖掘难度较大等现状,亟需开发一款藏文古籍识别软件系统,利用文字识别技术将藏文古籍文档图像转换为可编辑的文本文档,不仅有助于加快藏文古籍文档数字化保护进程、为相关藏学研究者提供便利,而且对加快文化的交流和融合有着一定的促进作用。本文以木刻板乌金体藏文古籍《甘珠尔》为研究对象,在藏文古籍文档识别方面开展了一系列研究,并针对藏文古籍文档图像的特点提出了以下算法:(1)基于Lab颜色空间污渍去除的二值化算法,该算法能够消除污渍等不利因素的影响,对低质图像有较好的处理效果;(2)基于连通域形状判断的去边框算法,克服了基于连通域面积容易误判的缺点,能够更加准确的判断并去除图像中的边框区域;(3)基于基线分割的字切分算法,解决了上元音过长产生的粘连问题,进一步提高了字切分的准确性;(4)基于CNN的字丁识别算法,利用深度学习解决了多类别字符识别问题,提高了藏文古籍7240类字丁的识别率。具体实现方面,在Windows平台下开发了一款藏文古籍文档图像识别系统,主要包括图像二值化及校对、去边框及校对、行切分及校对、字切分及校对、识别及校对、样本标记及校对等基本功能,能够将藏文古籍文档图像转换成可编辑处理的文本文档。针对不同的应用需求,系统提供“简易版”和“专业版”两大入口。“简易版”专为普通用户设计,主要分为三大功能模块:(1)图像获取,提供本地及文档扫描两种图像获取方式;(2)图像处理,提供分步识别、单幅一键识别及多幅一键识别三种图像处理模式,用户可根据需要进行选择;(3)字丁样本标记,根据识别结果将字切分图像分类并按类别保存至对应类别文件夹内。“专业版”为藏文古籍研究者设计,在“简易版”的基础之上添加了算法替换和模块增加两种功能,用以满足各种情况下的科研需要。藏文古籍识别系统主框架采用MFC方式编程实现,所有功能模块通过EXE可执行文件的调用实现,模块之间没有直接联系,便于系统模块功能的修改、维护。此外,系统支持Python、Matlab、C++、MFC四种类型的EXE可执行文件,只需匹配接口函数即可调用EXE可执行文件替换相应功能算法。经过对系统整体和各功能模块的测试验证,藏文古籍识别系统各功能模块正常、运行稳定。