基于嵌入训练和合成样本的中文手写字符串识别

被引量 : 0次 | 上传用户:qiucanyu0532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文字符识别是模式识别领域中极具有挑战性的难题之一。目前,印刷汉字识别和联机手写汉字识别已逐步实用化,而脱机手写汉字识别因其自身的复杂性被视为汉字识别领域“最后一座城堡”。最新发布的文本行级中文手写库HIT-MW使得这一领域重新成为热点,HIT-MW库首次关注真实手写环境下的文本识别。本文将中文手写字符串作为研究对象,首先搭建一个基于切分策略的中文手写字符串识别平台,在此平台上进行切分-识别集成框架下的字符串识别,然后采用字符串级别训练更新嵌入的字符分类器,进而采用扰动模型合成中文字符串样本扩展字符串级别训练的样本集,以期提高真实手写环境下的中文字符串的识别性能。字符串切分-识别集成框架的基本过程是:首先对输入的字符串图像进行过切分,并合并连续切分块组成切分-候选模式网格;然后采用嵌入的字符分类器分类候选模式网格中的所有字符模式,形成切分-识别网格;最后根据一定的路径评价函数寻找切分-识别网格中的最优路径。本文在字符串级别重新训练嵌入平台的字符分类器,训练过程中以MCE准则为目标,采用随机梯度下降在字符串样本集上逐步更新字符级别训练得到的分类器参数。实验表明,字符串级别训练能减少识别过程中的插入错误率,在一定程度上提高了中文手写字符串的识别性能。字符串级别训练采用的样本集存在着严重的样本不足问题。为此,本文提出两种合成中文字符串样本的扰动模型,一是直接在自然文本行上施加文本行级别或连通部件级别的几何变换;二是先对自然样本中的单字字符进行几何变换,然后根据自然样本相邻字符的间隔连接扰动后的单字字符构成新的字符串样本。本文采用这两种扰动模型合成足够的字符串样本,用于扩展字符串级别训练的样本集。实验表明,合成样本不论是在本文的基于切分策略的平台上,还是在基于无切分策略的HMM系统上均能提高中文手写字符串的识别性能。
其他文献
伴随着改革开放30多年经济的快速发展,我国商品市场供求格局发生了根本性变化,已经从总体短缺转变为总体过剩,从卖方市场转变为买方市场,市场需求对经济发展的约束作用越来越
影视作为艺术类型得到缪斯女神的青睐后,就和文学名著结下了不解之缘。电影与电视剧通过对文学名著的改编,脱离了单薄的观光猎奇和新闻纪录的形式,走向艺术的殿堂。成功的影
逆向工程是指从实物样件获取产品数学模型,进而开发出同类产品的先进技术。它改变了传统产品设计开发模式。工业品零部件加工大部分是由模具来完成的,而产品的模型是先进制造
工程项目进度控制是项目管理中的重要组成部分,也是项目管理中的难点和重点。在竞争日益激烈的今天,好的进度计划可以使项目工期缩短,节约费用,早投产早实施,占领先机取得良
医疗服务业是信息高度不对称的行业,与此同时对人民的健康具有十分重要的作用,政府应对其实行有效规制。随着外部环境的迅速变化,传统体制已无法满足人们对医疗服务的数量和
目的:了解金黄色葡萄球菌儿童临床分离株携带杀白细胞素(Panton-Valentine leukocidin, PVL)基因的状况及感染类型。方法:采用多重PCR同时检测金黄色葡萄球菌16SrRNA基因、PVL
素有“无烟工业”、“城市的面包”和“触摸世界的窗口”的美誉而著称的会展业,以其强大的产业带动效应而被作为创意产业的重要组成部分。在西方发达国家有着上百年的历史,已
甲基磺草酮是瑞士先正达公司开发的三酮类除草剂,英文通用名为mesotrion,并以商品名callisto(米斯通)于2001年在欧洲销售,由于其对环境友好,同年通过美国环境保护局的批准,其
随着山区公路桥梁建设,跨越深谷的桥梁越来越多。由于山区地形复杂,沟深坡陡,因此许多桥墩也相应要设计成高墩的形式。为了减少垢工体积,节约材料,或为了减轻自重,地震时有较
随着医疗服务行业市场化程度的逐渐提高以及县城内民营医院的兴起,县级公立医院因其提供的基本医疗服务所要求的技术水平低,人员能力相对不高这两大因素,其所面临的竞争压力