基于改进模糊支持向量机的西夏文字识别研究

来源 :兰州交通大学 | 被引量 : 2次 | 上传用户:Vince6666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常生活中经常会遇到需要将纸质上的文字转换为可以被电子设备存储的数字信息的情况。基于这一需求诞生了文字识别技术。文字识别隶属于模式识别学科,是在OCR(光学字符识别)的基础上,对获取图片进行预处理,特征提取,然后选择合适的分类器识别不同文字的技术。显然,文字识别拥有非常广泛的应用领域,特别是在邮政,考试,票据等很多需要识别复杂手写体,且对精度需求极高的场合。本文所研究的西夏文字识别技术是近年来文字识别技术中待发展的全新领域。西夏文明作为中华文明中不可或缺的一部分,一直有待人们挖掘探索。作为西夏文明的载体,古西夏文字的识别工作显得格外重要。不同于现代汉字,古西夏文字结构复杂,组成字符的各部分偏旁极其相似,且平均笔画高达25画,难以数字化。此外,目前出土的西夏文载体主要以手抄本和活字刻版字为主,同一个字在不同文献上的位置和布局均不相同,这都给文字识别工作带来了很大困难。为解决这一难题,针对传统的文字识别技术中存在的预处理数据冗余,特征复杂,泛化能力不足等问题,本文在采用HOG特征提取的基础上,提出了基于改进模糊支持向量机的西夏文字识别技术。模糊支持向量机是Lin Chun-fu等人为了解决支持向量机推广到多分类时存在的混分和漏分问题而提出的新分类器。本文提出的基于多超平面距离度量的隶属度函数对模糊支持向量机进行了改进,通过用过正负类中心的超平面代替类中心的作用,用样本点到各类中心平面及类中心的距离做比较来设计新的函数。根据样本分布,赋予不同样本点不同的权重,从而优化了分类器。针对非平衡数据分类,在支持向量机的数学模型中引入了新的约束公式,减小了隶属度函数赋值误差,增强了新算法的泛化能力,进一步优化了分类器。本文将改进后的模糊支持向量机应用于西夏文字识别并进行实验,然后与已有的几种常见算法进行对比实验,分析了各个算法的优劣性。实验结果表明新方法具有收敛速度快,识别率高的优点,具有一定的应用价值。本文的研究意义主要有四点:首先,有利于西夏文字的再生保护。本文提出的技术实现了西夏文字的数字化,将古籍资料以图像的形式存放在计算机里;其次,提高了文字整理效率。数字化后的图像数据库极大的方便了科研工作者;再次,提供了可借鉴的文字识别模型。同西夏文字情形类似的还有契丹文,女贞文等,本文的文字识别模型可供其他古文字保护工作借鉴;最后,实现了古籍文献的信息化检索。对于如西夏文字这样相似度极高的字符集,建立图像数据库,实现自由检索信息具有重要的意义。
其他文献
随着国家对教育经费投入的不断加大,使得高校体育场馆的建设数量也在不断增加,但在建设过程中存在诸多问题,如建设者对场馆功能定位不清、片面注重场馆的外观形象,设计者僵化
目的:通过床头交接班核查单在ICU的应用,规范ICU床头交接班的程序和内容,减少床头交接班漏项而造成的不良后果。方法:制定床头交接班核查单,所有护士统一培训,进行240例次的
传世的《金縢》篇虽然是经,但是后来有学者对于其内容、年代、解释等有不同的意见,乃至认为它是伪书或写定时代很晚。最近公布的清华大学藏简中,有内容与之相应的篇章,为解决
改造大肠杆菌质粒pLCX31,切除其中的xylE基因得到大肠杆菌质粒pJL01.将源于大肠杆菌分枝酸变位酶-预苯酸脱水酶基因2.3kb BamHI片段克隆到大肠杆菌质粒pJL01中启动子P32的下降,构建成质粒pJL02。再在pJL02的HindⅢ位点接入棒状杆
野生食用菌消费市场广阔,产品供不应求,价格不断上升,是云南省出口创汇的大宗商品。目前,云南省食用菌年创汇7000万多美元;年产松茸1200吨,出口日本近1100吨。经营野生食用菌
期刊
1 Results Nanometer-scale electrodes with a nano-junction allow us to investigate conduction properties of nano-materials. Because many nano-materials usually f
期刊
目的探究在对老年冠心病患者采用知信行护理模式的临床效果。方法选取2018年10月至2019年12月笔者所在医院收治的90例老年冠心病患者作为本次研究对象,采用随机数字表的方式
欧盟新的反倾销法作了许多重要的修订与补充,不仅对于裁定倾销的标准,确定“损害”的政策原则等作了修改,而且对于反规避条款也作了大量增订。对此我们必须认真研究掌握,并及时采
介绍了缺乏刺激论及毕科顿(Bickerton)的语言生物程序假说和高顿迈都(Goldin-Meadow)等对失聪儿童语言发展的研究,进一步论证了人类具有内在语言机制,这一论证对儿童习得母语及非
在标量势大于矢量势的条件下获得了一维半空间中带线性势的Klein-Gordon方程和Dirac方程束缚态的精确解,给出了能谱方程和束缚态波函数。