论文部分内容阅读
手写中文地址识别在许多领域中有迫切的应用需求,比如在物流快递行业,该技术在物流运单的自动化信息录入、快递包裹的自动化分拣等方面有广阔的应用前景。研究人员针对中文字符切分、中文单字识别、中文字符串识别、后处理优化等关键技术问题开展了长期研究,并取得良好进展。然而,由于手写中文地址的书写风格千变万化、书写环境毫无约束、地址格式缺乏规范,手写中文地址识别技术依然是个难题,面临巨大挑战,也一直是计算机视觉与模式识别领域重要的研究课题之一。移动终端设备近年来的发展极其迅猛,已经普及到人们的日常生活当中。这些设备集成具有强大处理能力的硬件以及众多实用的应用软件,不仅改善了人们的生活,同时还促进了其它相关领域的快速发展,也为模式识别相关技术在移动终端上的应用创造了有利条件,比如指纹识别、身份证识别、人脸识别和二维条码识别等已经在移动终端上广泛应用,面向移动终端的手写中文地址识别技术也有其实际应用需求。为此,本文针对面向移动终端设备的手写中文地址识别技术,分别从如何构建一个识别率高且占用存储空间小的MQDF手写中文字符分类器,以及对非规范格式的手写中文地址进行有效识别这两大问题进行深入研究。在MQDF手写中文字符分类器的存储空间问题上,利用稀疏编码和矢量量化技术,降低MQDF分类器参数的存储空间,以适应移动终端对分类器存储空间的约束;在手写中文地址识别的问题上,研究基于词级树的手写中文地址识别方法,并将非规范格式书写的中文地址映射到规范格式的中文地址当中,解决非规范格式手写中文地址识别的难题。本文主要贡献和创新成果包括:1.提出利用稀疏编码降低MQDF分类器存储空间的方法。尝试两种不同的稀疏编码方法构建简洁的MQDF分类器,一种是基于最大似然估计的方法,另一种是基于K-SVD的方法。在理论上证明了稀疏编码方法在降低MQDF分类器存储空间方面的可行性,并通过实验验证了其有效性。2.提出稀疏编码与矢量量化技术相结合降低MQDF分类器存储空间的方法。在基于稀疏编码构建简洁MQDF分类器基础上,采用矢量量化技术对稀疏编码作进一步压缩。此方法充分利用稀疏编码技术和矢量量化技术的优点,可在分类器识别精度损失极小的情况下,构建更为简洁的MQDF分类器。实验验证了该方法的有效性。3.提出基于词级树的手写中文地址识别方法。在字符串分割-识别的基础架构上,以词级树作为规范格式中文地址的存储结构,结合字符索引表以及地址词识别的方法,设计相应的启发式算法和求解方案,最终将非规范格式书写的中文地址映射到规范格式的中文地址当中。实验表明,基于词级树的手写中文地址识别方法不仅较好地提高了规范格式书写的中文地址识别的鲁棒性,同时还能对非规范格式书写的中文地址进行有效的识别。4.实现面向移动终端的手写中文地址识别系统。集成本文所提出的基于稀疏编码和矢量量化技术的简洁MQDF分类器、基于词级树的手写中文地址识别方法,在智能手机终端上实现了一个手写中文地址识别系统。针对实际邮件手写中文地址识别进行实验测试,取得了良好效果。