蒙古文脱机手写识别研究

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:ssskstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写识别一直是模式识别的一个重要研究领域,得到了学术界的广泛研究和关注。热门语言(如汉文、英文、日文)的手写识别研究已经从简单的孤立词识别发展到文本行识别、无约束手写识别、文档识别和场景文字识别等领域。然而,蒙古文脱机手写识别起步较晚、相关研究较少,且蒙古文具有词汇量巨大、书写自由、字符变形严重等特点,这些都给蒙古文脱机手写识别带来了巨大挑战。因此,本文将传统蒙古文作为对象,开展脱机手写识别研究。针对蒙古文缺乏手写数据集的现状,本文收集并整理了蒙古文词典数据,选取了手写词汇集,组织大批人员抄写了样本,通过人工核对、校正和预处理,形成了脱机手写蒙古文单词数据集,并在此基础上开展了蒙古文脱机手写识别研究,具体研究内容包括:(1)针对蒙古文百万级词汇量的特点,本文根据蒙古文构词、编码、语法等知识,选取了“十二字头”、“变形显现字符”和“字素码”等三种单词分割单元,通过对比实验,选定“字素码”为蒙古文单词的分割单位,并提出了基于字素建模的蒙古文大词汇量手写识别方法。该方法以蒙古文字素作为建模单元,通过字素的线性串联实现单词建模,以解决大词汇量识别问题。(2)针对蒙古文手写单词具有序列数据特点以及变形严重问题,本文提出了隐马尔可夫模型(Hidden Markov Model,HMM)与深度神经网络(Deep Neural Networks,DNN)相结合的混合识别方法,实现了蒙古文脱机手写识别。将每个蒙古文脱机手写单词都看作沿书写方向的一个一维随机序列,通过隐马尔可夫模型描述该序列的生成过程,深度神经网络用于描述序列的概率分布,将语音识别相关方法成功移植到蒙古文脱机手写识别任务中,取得了较好效果。(3)针对蒙古文手写单词相邻字符间关联严重的问题,本文提出了一种基于长短期记忆网络(Long Short-Term Memory,LSTM)+连接时序分类器(Connectionist Temporal Classification,CTC)相结合的字符关联建模方法。由于图像本质是二维序列,因此采用二维LSTM,从四个方向依次扫描图像可获得多个序列信息,解决了图像二维序列到字素码的映射问题,进一步提高了蒙古文脱机手写识别准确率。(4)针对集外词(Out-of-Vocabulary,OOV)问题,本文提出了CTC与子词语言模型相结合的方法,可在一定程度上解决蒙古文集外词识别问题。虽然二维LSTM有较好的建模能力,但网络本身并无有效的解码方案。针对蒙古文词干加后缀的构词特点,可通过加权有限状态转换机(Weighted Finite-State Transducers,WFST)来组织蒙古文单词,有效降低了解码的时间复杂度。实验结果表明,基于CTC与子词语言模型的解码方案对集外词有一定的识别能力,同时对集内词有较高的识别准确率。综上所述,本文通过以上四个方面的研究,使得蒙古文脱机手写识别的性能达到了较高水平,可为开发相关应用系统提供技术支撑。同时,本文的研究成果也能为蒙古文手写文档识别提供技术支持,这对挖掘和利用蒙古文手写文献资源,传承和发展少数民族文化具有重要意义。
其他文献
碳纤维/竹展平板是提高竹材在工程产品中应用的一种新型复合材料。胶合界面是复合材料传递力的桥梁,胶合界面的胶合性能是影响复合材料整体力学性能的关键。研究了羟甲基化间苯二酚(Hydroxymethylated resorcinol,HMR)偶联剂处理竹展平板表面对碳纤维/竹展平板复合材料的胶合性能的影响,按照不同的组坯方式和竹展平板表面处理方式将测试的试件分为4组。从碳纤维/竹展平板复合材料胶合界面的
黔中喀斯特山地城市具有城山镶嵌的独特景观特征,在快速城市化和生态文明示范城市建设的双重影响下,优化喀斯特山地城市土地利用格局,对于科学制定国土生态空间规划,推进生态文明示范城市建设具有重要意义.以贵阳市花溪区为研究对象,以2008年、 2013年和2018年Landsat遥感影像为主要数据源,运用空间信息技术和方法,系统分析花溪区近10年生态用地的时空演变和梯度特征.结果表明:2008-2018年
以稻壳粉、低密度聚乙烯为原料,对比研究润滑剂和偶联剂对复合材料相容性、加工性能和力学性能等方面的影响.实验表明:润滑剂处理的稻壳粉疏水性更好,其中由乙撑双硬脂酸酰胺处理前后的稻壳粉接触角变化为9°;偶联剂的加入对复合材料的力学性能影响较大,其中加入KH570偶联剂时,复合材料的综合力学性能较好,抗拉强度提高了45%,断裂伸长率提高了323.7%,弯曲强度提高了8%,弯曲模量提高了28%;加入钛酸酯
一、引言《中国法律评论》(以下简称《中法评》):2020年以来,最高人民检察院部署启动企业合规不起诉制度改革。作为检察机关平等保护民营企业、积极参与社会治理的重要改革举措,企业合规不起诉改革试点取得了阶段性成效,但也面临着一些重大争议。
期刊
1 病例介绍患者,男,51岁,因“重物砸伤后四肢活动障碍4 d”,于2020年4月16日收入我院康复医学科。
德清县域医共体改革缘起于周边城市大医院的虹吸作用所导致的医保基金外流以及自身医疗服务传递体系的碎片化。基于浙江省县域医共体首批试点县的经验以及县域较强的综合实力,德清县有实力和基础对县域医共体进行改革。德清县从组织架构、体制机制、保障体系和服务模式四个维度进行改革,在改革进程中出现了行政干预过强、医疗市场单一、多重法人并存以及三医联而不动等问题,这需要通过探索建立协同式的法人治理结构、促进医疗市场
培养高质量的社会工作专业人才,是当前高等学校相关专业的重要任务。但目前这方面还存在着不少问题,尤其是部分社会工作专业学生的实际操作能力与社会期望存在一定差距,其中一个重要的原因是一些高校重理论教学轻实践体验、重技能培养轻思想疏导。拟剧理论中关于舞台表演的思想可以给社会工作教学实践带来更多的启示意义:要进一步创新办学机制,让产业行业与教育教学深度融合;进一步创新培养理念,让专业价值观和人文情怀同频共
目的:探讨西部民政精神卫生服务资源配置的公平性和收敛性问题,为西部地区精神卫生服务资源的优化配置提供参考依据。方法:采用基尼系数、泰尔指数分析西部民政卫生资源配置的公平性及区域间和区域内的差异;运用δ和β收敛分析资源配置情况及地区间资源配置差距的变化趋势。结果:2012-2018年西部地区民政精神卫生服务床位资源和人力资源分别增加了68.89%、59.75%;精神卫生服务资源按人口配置的基尼系数在
目的:研究转录调节因子叉头盒蛋白P1(Foxp1)在急性Stanford A型主动脉夹层患者主动脉壁的表达情况并探讨Foxp1在TGF-β1诱导的主动脉血管平滑肌细胞(VSMC)表型转化中的作用。方法:收集急性Stanford A型主动脉夹层手术切除的主动脉标本,通过RT-PCR和Western Blot方法检测标本中Foxp1的mRNA与蛋白表达情况。Foxp1重组质粒转染大鼠主动脉平滑肌细胞,
黑胫病(Blackleg)是世界范围的油菜(Brassica napus)真菌病害,其病原菌为Leptosphaeria属的复合种,影响着油菜籽的产量和品质。该病害在澳大利亚、加拿大、欧洲、中国等油菜产区均有发生,制约着油菜产业的发展和国际贸易。目前,防治措施主要包括选育和栽培抗病油菜品种、科学的农艺管理,以及使用化学杀菌剂。甾醇脱甲基酶抑制剂(Sterol demethylation inhib