论文部分内容阅读
随着移动互联网的飞速发展,用户对便利终端设备的迫切需求,市场上纷纷出现各式各样的大屏幕手机、平板电脑,使得手写输入变得更加简单、方便。移动终端设备的出现在给手写识别带来的巨大商机的同时,也带来了更大的挑战,不仅要求识别精度高,而且要求识别速度快,适合各类用户书写习惯和各类设备硬件条件。 在手写识别中,提高单字识别的精度是基础也是重点,但是一些客观原因也造成了单字识别的难度,例如由于汉字的种类多,结构复杂,字形的多样化以及标注样本的有限。建立标注手写样本库过程繁琐,一定数量的标注手写样本库的获得需要耗费大量的财力,样本的校验工作也需要花费很多的精力和时间,因此手写汉字识别领域面临着巨大的挑战。但是,由于移动商业化的发展、手写终端的便利、各类手写应用的出现以及用户越来越依赖于手写输入的现状,通过一定的商业途径,获得用户各式各样的大量无标注手写样本对手写识别来说变得相对容易了,找到一种成本低、准确率高的手写识别方法变得尤其重要。在这种标注样本少,无标注样本多的情况之下,半监督的深入学习方法便能很好地发挥其优势。 本文将深入学习应用到手写汉字识别中,并结合传统的预处理、降维以及分类方法,提出了一种将 DBN与MQDF相结合的单字识别方法。深度学习相比其他的学习方法具有较强的表达能力,特别对结构复杂的手写汉字,能够用非常复杂的深度结构进行建模。本文中的提出的方法主要分为四个阶段:第一阶段,将在线或者离线数据进行规整化后,采用连续的NCFE八方向特征提取方法;第二阶段,将第一阶段得到的特征放到 DBN中进行构建、训练和粗分类;第三阶段,将第一阶段得到的特征进行降维;第四阶段,利用第三阶段得到的特征和第二阶段得到的候选类别用Modified Quadratic Discriminant Functions(MQDF)进行细分类。 最后,本文的方法在哈尔滨工业大学深圳研究生院 HIT-OR3C、中科院CASIA-OLHWDB1和华南理工的SCUT-COUCH2009手写数据集上进行实验。结果表明,相比其他方法,本文提出的方法对单字识别的准确率有了明显提高。