脱机手写满文文字识别研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:yezilei311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
满族作为曾经的统治阶级,大量涉及政治、经济、文化、军事、外交、宗教、民俗、天文、地理等各个方面的资料都是用满文记载的,具有很高的史料价值和凭证作用。清史研究是当代史学研究的热点之一。如此繁多的珍贵史料,如果满语消失,很多史实再也没有解密的机会。而现在全国会说满语的不足百人,而精通书面语的不到20人,满语人才极其匮乏。目前满文的信息化处理和手写满文识别研究在国内尚属空白。 手写满文文字识别和其它手写文字识别一样,是一个非常有意义和极具挑战性的课题。其目的是通过页面理解和识别达到手写满文文档的自动录入,实现满文文本信息的存储、检索和转换等高层次处理,解决满文历史文档的再生保存和信息检索等问题,为清史研究提供先进的研究手段。 本文的主要内容包括: (1)对满文的书写特点进行研究,改进了满文罗马转写拼写规则,使之更易于普通用户输入满文。 (2)提出满文字根的概念,以此为基础构建通用满文矢量字库,使字处理程序可以直接处理满文,对满文进行排版和打印,同时也解决了满英汉等多种文字的混合排版。 (3)提出并实现了满文罗马转写输入法,解决了满文的文档手工输入问题;对满文目前存在的两种信息形式(即满文罗马转写和原始圈点满文)之间构建了双向转换功能,这样用户可以在这两种信息形式之间方便的进行转换,便于信息的交流和研究。 (4)对满文历史文档存在的典型版面进行分析,并实现文档的倾斜检测和校正功能,最终输出满文单字,方便下一步的识别处理。 (5)对手写满文识别预处理技术进行了系统地探讨,提出一套适合于满文书写特点的预处理技术,包括满文扫描文档的倾斜检测和倾斜校正,文字的行列划分、单字切分和单字提取,文字的去噪和细化处理等。 (6)对满文的统计特征和结构特征进行了详细的研究和系统分析,提出了满文的笔划基元概念,在此基础上建立满文笔划基元的分割、提取、特征提取和识别,以及笔划基元的组合识别方法;并在构建满文的二级子结构以及采用WNN对满文笔划基元识别方面进行了较深入地研究。 (7)通过研究目前常用文字后处理方法,提出了基于语料和规则相结合满文识别后处理方法,并取得了良好的实验效果;对于HMM后处理方法在满文识别中的应用也进行了一定深度的研究。
其他文献
随着电信运营业市场化的不断深入,竞争程度日趋激烈,运营商之间对客户的争夺和对业务收入的挖掘越来越依赖于精确的市场研判和调查分析。高质量的服务己成为左右市场的重要祛码。对客户的服务和关怀也越来越趋于个性化和细致化,同时,出于盈利前景的考虑,运营商的投资计划也越来越理性化。电信运营企业在市场开拓、客户服务、网络投资等诸多经营行为的更加理性化的方案诉求都离不开相应的计费帐务系统的有力支持。计费帐务系统是
万维网地理信息系统(WebGIS)指基于Internet平台、采用互联网协议运行在万维网上的地理信息系统,是利用互联网技术来扩展和完善地理信息系统的一项新技术。其核心是在地理信息
过去的三十年中,Internet已经从一个小型的实验性研究性的网络发展壮大为一个以路由器,交换机和主机组成的复杂网络.如今维护一个准确的网络拓扑关系对所有网络管理系统都是
随着微电子技术、计算机技术、网络技术以及无线通信技术的进步,无线传感器网络得到了深入的研究和广泛的应用。然而传感器节点由电池供电,能量有限。同时,无线传感器网络产生大
信息技术的发展使得人们对获取客观物理世界的信息的要求逐步提升,感知技术不断被应用,无线传感器网络作为信息互联的中枢,更是被广泛应用于环境监测、国防军事等各个领域。在无
真核生物中普遍存在选择性剪切现象,转录过程中的一些非正常的波动变化常常与疾病有关。因此,对转录组波动变化的研究是近年来生物医学领域的一个研究热点,而基因与剪切异构体表
随着通信技术的高速发展,以及第三代移动通信系统(3G)技术的成熟和商用,移动网络的规模正在不断扩大,网络结构也正进行着不断地变化和调整,网络复杂度日益提高,通信网络的管
链接后优化技术是在编译链接后对整个可执行程序再进行优化的一种技术。一方面,它克服了传统编译器的优化局限于一个函数、一个模块的缺点,将优化范围扩展到整个程序。另一方
本课题研究的基于DSP的苹果大小和形状动态分级系统,它运用机器视觉技术和数字信号处理技术,通过对图像处理和分析实现对动态苹果的检测,最终实现苹果分级。 本文详细介绍了
随着Web服务和网格服务的迅速发展,面向服务的体系结构(SOA)已经成为企业建模的核心架构。在完成中山大学计算机系软件工程实验室提出并负责实施的广东省科技计划工业攻关项