藏文音节字手写识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:redbird_zdc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技日新月异、信息化飞速发展的今天,手写藏文识别的研究还处于起步阶段,藏族同胞手机中的输入法软件还停留在全键盘模式,浩如烟海的藏文文献典籍数字化工作仍亟待进行。小至藏族同胞的生活需求,大到少数民族文化的传承,都离不开手写藏文识别技术的发展。因此,研究手写藏文识别技术对少数民族非物质文化遗产的保护具有重大意义,是我国文字识别工作者义不容辞的责任。本文介绍了藏文识别的研究现状,分析了藏文的特征与识别难点。由于在实际应用中,藏文以音节字作为书写单元,因此,本文首次对手写体藏文音节字识别技术,进行了较为系统的理论和实验研究。本文将基于特征提取的文字识别方法和基于深度学习的文字识别方法,应用于藏文音节字识别研究中,并取得了以下主要研究成果:1.在藏族同胞的协助下,本文根据藏文音节的字母组合动态比率数据,统计出579种常用的藏文音节字,并采集了60套手写藏文音节字样本,建立了包含34740个藏文手写音节字样本的数据库。2.本文将特征提取文字识别方法应用于手写藏文音节字识别中。在预处理步骤中,为了保留藏文音节字的结构信息,本文提出了基线上下线性归一化方法,并将该方法与非线性归一化、平滑处理、插值和重采样进行结合,最大程度地保留了手写藏文音节字的原始信息,滤除了冗余信息,便于特征的提取与分类识别。在特征抽取步骤中,本文根据手写体藏文音节字自身的书写特点,提出了将上元音特征和八方向线素特征相结合的特征识别方法,并应用于藏文手写音节字的识别研究。在分类器设计步骤中,为解决藏文音节字由于元音符号区别较小而造成相似字多、识别率低的难题,以及考虑到移动平台这个比较特殊的开发环境,本文提出了将上元音特征作为粗分类器,与欧式距离和MQDF分类器进行级联的三级分类器设计方案。3.本文通过实验对比了欧氏距离和三级分类器级联的识别效果。采用三级分类器级联时,前三平均识别率为94.18%,前五平均识别率达到了96.45%。实验结果表明,本文算法识别效果较好。本文对基于特征提取的算法进行性能测试后,将算法移植至移动终端,采用谷歌推出的输入法框架Android Input Method Framework进行手写输入法软件开发,完成了基于安卓系统的全手写藏文输入法软件。4.本文将基于深度学习的文字识别方法应用于藏文手写音节字的识别研究中。本文在经典手写数字识别网络LeNet-5模型的网络结构上进行改进,通过调节网络结构和参数,使网络性能达到最优,实验结果表明,最高识别率达到了91.2%。
其他文献
随着我国经济的快速平稳增长,我国将逐渐走入汽车社会,迎来汽车消费大众化的时代。我国已经是世界上汽车产业发展潜力最大的地区之一,未来几年,中国汽车市场将成为全球汽车市
<正>目的:了解长链非编码RNA(LncRNA)H19在唾液腺腺样囊性癌(SACC)中的表达情况,探索H19对SACC细胞多种生物学功能的影响以及其相关分子机制。方法:通过RT-PCR对29例腺样囊性
会议
目前,汽车制造业是我国国民经济几大支柱产业之一。车身覆盖件是汽车的主要零件,其开发生产周期将直接制约着汽车的更新换代周期。传统的研发生产方法主要是凭借技术人员的经验
<正> 曹雪芹原著文字,非但在身后被高鹗等人妄篡,在他生前也有因传抄而致讹的。即使在他自己笔下也有(未必是他自愿而被)删改的。最明显的,要数关于秦可卿的死故了。按现在看
鲁迅的《狂人日记》作为现代文学史上第一篇白话小说,不仅仅在于格式的特别以及塑造了“狂人”这一典型的艺术形象,它的可贵之处更在于这一形象丰富的内涵以及在当时所具有的
血栓栓塞性疾病是引起人类疾病死亡的主要原因之一,随着人们对其发病机制研究与认识的不断深入以及药物设计和筛选技术的日臻成熟,针对各种靶点的新型抗血栓药物不断涌现,如
宋代是历史上一个特殊的时期,在经过唐末五代乱世后迎来的一个关注大众精神生活的时代。其教化思想与实践也是独树一帜,是一个逐步面向社会、深入日常生活的开展过程,逐步形成了
通感是象征主义诗歌中常见的表现手法,兰波作为最杰出的两位象征主义诗人之一,更是将通感运用到极致,本文从《醉舟》这首诗歌入手,分析其中通感的表现方式,并透过分析找出兰
期刊
农业鸟害是近些年给农业生产带来巨大损失的主要原因之一。一方面,农业鸟害成灾已经到了不得不采取措施的地步,另一方面,现有驱鸟方式虽多,但多存在如驱鸟范围窄、耗费大量人
高速切削技术具有生产效率高、加工精度高和加工成本低等优点,在航空航天、汽车、模具等制造领域具有广阔的应用前景。相对于非金属材料和有色金属来说,黑色金属及一些难加工