论文部分内容阅读
随着电子科学技术的发展,带触摸屏的移动设备在我们的生活中的普及程度越来越高,这类设备的出现和流行在很大程度上改变了人们与电子产品之间的交互方式。手写输入方式由于在很多场合能给用户带来更好的用户体验而逐渐成为移动终端平台主要的输入形式之一。SCUT gPen手写输入法作为一款流行程度较高的云手写输入法,在为用户提供高质量的手写服务的同时,也在征得用户允许的前提下,采集到海量的用户手写样本数据,这些数据为我们进行个性化手写识别技术研究奠定了基本条件。同时SCUT gPen手写输入法由于具有用户数量大,用户粘着性强的特性,所以也很适合作为个性化手写识别技术的试验应用平台。不可否认,近些年,手写文字识别技术在应用层面获得很大发展,有数款以手写为主要输入形式的输入法及相关产品获得商业上的成功,手写文字识别的识别率也在一定程度获得提高。但是我们也要看到,在这个过程中,手写文字识别技术及其应用形式没有得到根本性改变,对于无约束的中文手写文字识别,由于其用户书写风格的多样性及手写样本的多变性,现今的单一模板的识别方法很难在这些样本上取得很好的识别准确度。针对以上的这些问题,本文致力于个性化的中文手写识别技术及其应用的研究,主要工作包括:(1)开发了SCUT gPen繁体版手写输入法,该输入法在Google Play上线后,累计下载量超过130万,活跃用户超过10万,云端日平均处理识别请求在600万条以上。在该输入法基础上建立起的数据平台为我们研究个性化手写识别技术以及该技术进一步的应用奠定基础。(2)针对SCUT gPen用户手写样本数据格式杂乱,部分样本标记错误或书写过于潦草,不适合用于增量学习的情况,本文提出一系列数据整理规则,以及一种基于识别置信度的方法,可以在无人工干预的情况下对手写样本数据进行筛选。(3)本文设计并建立了一个书写者自适应增量学习训练平台,利用gPen用户数据对标准模板进行增量学习,有效提高了对特定用户手写样本的识别性能。(4)本文设计并建立了个性化识别模板的推送系统,该系统支持大规模用户访问,并通过用户ID识别和文件校验技术来实现个性化识别模板的精确推送服务。总之,本文设计并建立的书写者自适应增量学习和个性化识别模板推送系统可以有效提高分类器对特定用户手写样本的识别性能,模板推送系统则使得书写者自适应技术真正走向大规模应用成为可能。