论文部分内容阅读
在日常生活中经常会遇到需要将纸质上的文字转换为可以被电子设备存储的数字信息的情况。基于这一需求诞生了文字识别技术。文字识别隶属于模式识别学科,是在OCR(光学字符识别)的基础上,对获取图片进行预处理,特征提取,然后选择合适的分类器识别不同文字的技术。显然,文字识别拥有非常广泛的应用领域,特别是在邮政,考试,票据等很多需要识别复杂手写体,且对精度需求极高的场合。本文所研究的西夏文字识别技术是近年来文字识别技术中待发展的全新领域。西夏文明作为中华文明中不可或缺的一部分,一直有待人们挖掘探索。作为西夏文明的载体,古西夏文字的识别工作显得格外重要。不同于现代汉字,古西夏文字结构复杂,组成字符的各部分偏旁极其相似,且平均笔画高达25画,难以数字化。此外,目前出土的西夏文载体主要以手抄本和活字刻版字为主,同一个字在不同文献上的位置和布局均不相同,这都给文字识别工作带来了很大困难。为解决这一难题,针对传统的文字识别技术中存在的预处理数据冗余,特征复杂,泛化能力不足等问题,本文在采用HOG特征提取的基础上,提出了基于改进模糊支持向量机的西夏文字识别技术。模糊支持向量机是Lin Chun-fu等人为了解决支持向量机推广到多分类时存在的混分和漏分问题而提出的新分类器。本文提出的基于多超平面距离度量的隶属度函数对模糊支持向量机进行了改进,通过用过正负类中心的超平面代替类中心的作用,用样本点到各类中心平面及类中心的距离做比较来设计新的函数。根据样本分布,赋予不同样本点不同的权重,从而优化了分类器。针对非平衡数据分类,在支持向量机的数学模型中引入了新的约束公式,减小了隶属度函数赋值误差,增强了新算法的泛化能力,进一步优化了分类器。本文将改进后的模糊支持向量机应用于西夏文字识别并进行实验,然后与已有的几种常见算法进行对比实验,分析了各个算法的优劣性。实验结果表明新方法具有收敛速度快,识别率高的优点,具有一定的应用价值。本文的研究意义主要有四点:首先,有利于西夏文字的再生保护。本文提出的技术实现了西夏文字的数字化,将古籍资料以图像的形式存放在计算机里;其次,提高了文字整理效率。数字化后的图像数据库极大的方便了科研工作者;再次,提供了可借鉴的文字识别模型。同西夏文字情形类似的还有契丹文,女贞文等,本文的文字识别模型可供其他古文字保护工作借鉴;最后,实现了古籍文献的信息化检索。对于如西夏文字这样相似度极高的字符集,建立图像数据库,实现自由检索信息具有重要的意义。