面向大词汇量离线中文手写识别的简约建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiao4869
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于汉字种类繁多,加之书写风格迥异,离线中文手写识别是一项很困难的任务。离线中文手写识别主要分为两个任务:离线中文手写孤立字识别和离线中文手写文本行识别。当前,深度学习技术已经成为离线中文手写识别的主流技术,但在大词汇量的情况下,仍然存在较多问题。首先,由于汉字种类很多(简体字超过27000类,繁体字超过100000类),导致系统对存储和计算量都有很大的要求。其次,大词汇量的手写识别任务对训练数据量的需求非常大。最后,系统无法识别训练集以外的(OOV:Out-of-Vocabulary)汉字和网络“新字”。针对由大词汇量带来的系统冗余和对存储、计算要求高的问题:我们采用基于Two-steps算法状态绑定得到的简约HMM(PHMM:Parsimonious HMM)来建模汉字间的相似部分。在离线中文手写文本行任务上,与传统HMM算法相比,简约HMM不仅可以使模型更简约,而且可以提升系统识别性能、减小前向解码时间。针对由大词汇量带来的系统对训练数据需求高和“新字”、OOV汉字无法识别的问题:我们提出稠密结构的部件分析网络(DenseRAN:Radical Analysis Network with Densely Connected Architecture)来分析汉字的二维空间结构和部件组成。在离线中文手写孤立字与文本行识别任务上,DenseRAN这种基于部件分析的模型不仅可以大大减小系统类别数,而且可以识别训练集没有见过的汉字。
其他文献
加快城市配网自动化建设,推进城市配网智能化已经成为提高配电网运行效益的必然要求。现对城市配网自动化建设问题进行探讨,以期对提高配网自动化建设的实用化水平和综合效益
随着社会的进步和科技的发达,现代科技与以法律为代表的上层建筑呈现了多角度的碰撞与融合,从而在司法实践中产生了一些与案件密切相关的新类型的证明材料,例如:交通事故认定
随着现代科学技术的发展,特别是以计算机和网络为特征的信息技术的迅猛发展给社会生活带来了深刻而巨大的冲击,社会生活的各个方面从观念到形式都发生了巨大的变化。20世纪90
1978年改革开放后,FDI大量流入我国。由于技术具有广泛的外溢性,引进FDI,与技术扩散的主体跨国公司进行合作,是东道国国家获得技术、提高自主创新能力的主要渠道。但是,由于
研究背景新辅助化疗(Neoadjuvant Chemotherapy,NAC)在乳腺癌治疗中的地位已被广泛肯定。它不仅可以提高手术切除率、增加保乳机会,而且对于新辅助化疗后达到病理完全缓解(pC
目的评价极低出生体质量儿生后早期应用高流量鼻导管通气的安全性及有效性。方法 106例28~32周符合纳入标准的极低出生体质量儿随机分为2组,一组给予高流量鼻导管通气(HHHFNC
近年来国外猪肉的进口呈增长趋势,其中英国是我国猪肉进口来源国之一。英国如何在猪肉自给率只有54%的情况下仍能实现出口盈利,非常值得中国这一养猪大国去学习。提高生产性
人体内脂肪积聚过多,体重超过标准20%以上时,即称为肥胖病.成人标准体重=(身高-100)×0.9,肥胖的原因,除一部分因内分泌紊乱或其他疾病引起的以外,大多数属于单纯性肥胖.
相干光检测可以提高光通信系统的接收灵敏度,改善系统的性能;但大气的退偏效应使光信号通过大气传输后偏振状态随机变化,难以实现两束光偏振态一致的要求,直接影响该系统的检
揭示了当前烟草商业企业科技创新工作存在的薄弱环节,对烟草商业企业科技创新进行了定位,提出了烟草商业企业科技创新的实现路径并进行了实证分析,研究发现:烟草商业企业科技