论文部分内容阅读
满族作为曾经的统治阶级,大量涉及政治、经济、文化、军事、外交、宗教、民俗、天文、地理等各个方面的资料都是用满文记载的,具有很高的史料价值和凭证作用。清史研究是当代史学研究的热点之一。如此繁多的珍贵史料,如果满语消失,很多史实再也没有解密的机会。而现在全国会说满语的不足百人,而精通书面语的不到20人,满语人才极其匮乏。目前满文的信息化处理和手写满文识别研究在国内尚属空白。
手写满文文字识别和其它手写文字识别一样,是一个非常有意义和极具挑战性的课题。其目的是通过页面理解和识别达到手写满文文档的自动录入,实现满文文本信息的存储、检索和转换等高层次处理,解决满文历史文档的再生保存和信息检索等问题,为清史研究提供先进的研究手段。
本文的主要内容包括:
(1)对满文的书写特点进行研究,改进了满文罗马转写拼写规则,使之更易于普通用户输入满文。
(2)提出满文字根的概念,以此为基础构建通用满文矢量字库,使字处理程序可以直接处理满文,对满文进行排版和打印,同时也解决了满英汉等多种文字的混合排版。
(3)提出并实现了满文罗马转写输入法,解决了满文的文档手工输入问题;对满文目前存在的两种信息形式(即满文罗马转写和原始圈点满文)之间构建了双向转换功能,这样用户可以在这两种信息形式之间方便的进行转换,便于信息的交流和研究。
(4)对满文历史文档存在的典型版面进行分析,并实现文档的倾斜检测和校正功能,最终输出满文单字,方便下一步的识别处理。
(5)对手写满文识别预处理技术进行了系统地探讨,提出一套适合于满文书写特点的预处理技术,包括满文扫描文档的倾斜检测和倾斜校正,文字的行列划分、单字切分和单字提取,文字的去噪和细化处理等。
(6)对满文的统计特征和结构特征进行了详细的研究和系统分析,提出了满文的笔划基元概念,在此基础上建立满文笔划基元的分割、提取、特征提取和识别,以及笔划基元的组合识别方法;并在构建满文的二级子结构以及采用WNN对满文笔划基元识别方面进行了较深入地研究。
(7)通过研究目前常用文字后处理方法,提出了基于语料和规则相结合满文识别后处理方法,并取得了良好的实验效果;对于HMM后处理方法在满文识别中的应用也进行了一定深度的研究。