手写文字识别及相关问题算法研究

来源 :中国科学院大学(中国科学院计算机科学与技术学院) | 被引量 : 0次 | 上传用户:stayrose
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息表达和交流的重要工具,文字被广泛地应用于人们的日常生活和工作中。同时,手写也是每个人在社会中赖以生存的技能。随着计算机的发展和普及,手写文字识别作为一种高级的人机交互方式在近几十年来引起了人们的广泛关注。虽然研究者们在手写识别领域已经取得了大量突破性的进展,但是基于深度学习的手写识别算法仍然有很大的改进空间,因此如何设计更为准确高效的手写识别算法是本文的核心研究内容。另外,随着传感技术的发展,一种新型人机交互方式下的空中手写被提出,即用户可以直接使用手或手指在三维空间中自由地书写。然而,目前的空中手写识别研究仍然处于起步阶段,特别是针对空中手写中文文本识别的研究还处于一片空白。因此,空中手写识别也是本文的主要研究目标之一。本文主要的贡献总结如下:1.本文从一个全新的角度提出了一种基于一维卷积网络的联机手写汉字识别算法,即使用一维卷积网络直接对手写汉字轨迹的时序结构进行建模。本文提出的方法完全不同于目前主流的手写识别算法(包括基于二维卷积网络或循环神经网络的识别算法),并且具有显著的优势:(1)相比于二维卷积网络,提出的方法避免了经验化的领域知识来提取复杂的方向特征图,同时我们的模型参数更少且识别精度更高;(2)相比于循环神经网络,提出的方法能够并行地处理时序数据,其对于长序列手写轨迹的识别速度更快。2.本文提出了一种基于注意力机制的手写英文单词识别算法,该方法采用了编码-解码的架构并通过结合注意力机制迭代地输出目标字符串。同时,本文使用以下策略来进一步改进模型,包括:(1)我们使用一维卷积网络替代循环神经网络编码手写轨迹,显著地提升了模型的编码速度;(2)我们采用了词典约束的解码算法,显著地提升了模型的识别准确率。另外,我们构建了首个大规模的空中手写英文单词数据集IAHEW-UCAS2016用于促进后续的空中手写英文单词识别研究。最后,本文搭建了一个实用的空中手写英文单词识别系统。3.为了有效地识别联机手写中文文本,本文提出了一种新颖的时序卷积循环神经网络,其相比于现有的识别算法更具优势:(1)相比于主流的循环神经网络,提出的方法具有更快的计算速度和更高的识别准确率;(2)相比于最先进的全卷积循环网络,提出的方法避免了经验化的领域知识来提取复杂的特征图,同时模型的训练效率更高(包括更低的计算复杂度,更少的内存消耗,更快的收敛速度)且模型参数更少。为了进一步探究新型的空中手写,本文搭建了世界上首个三维空中手写中文文本识别系统。据我们所知,目前学术界还没有任何针对空中手写中文文本识别的研究。为此,我们构建并公开了首个大规模的空中手写中文文本数据集IAHCT-UCAS2018,从而促进后续的空中手写中文文本识别研究。4.本文提出了一种新颖的基于生成对抗网络的手写文本生成算法。现有的手写生成方法还没有完全地解决手写文本生成任务,因为它们都局限于生成较短的手写单词或者随机风格的手写文本图片。相反,本文提出的模型能够根据给定的任意文本生成任意长度的手写图片,其不局限于事先定义好的语料库或任何词汇表外的单词。同时,我们的模型能够从给定的参考样本中准确地提取出书写风格,从而进一步模仿生成具有相似风格的其它手写文本。实验分析表明本文提出的模型针对手写文本生成具有很好的泛化性,而不是单纯地记忆训练集中的真实手写样本。5.针对基于卷积神经网络的手写汉字识别模型,本文提出了新颖的一体化网络压缩算法。本文提出的压缩算法结合了通道裁剪和参数量化两种策略,能够在保证识别精度的前提下最大限度地压缩识别模型。具体地,在通道裁剪阶段,我们采用了粗细粒度相结合的裁剪策略来迭代地裁剪掉卷积网络中冗余的通道;在参数量化阶段,我们引入了权值丢弃和迭代式量化策略来最大限度地量化模型参数。在公开手写数据集(包括ICDAR-2013,IAHCC-UCAS2016,以及MNIST)上的实验结果表明提出的方法能够显著地压缩基于卷积神经网络的手写汉字识别模型。
其他文献
目的介绍儿童手足畸形术后采用敷料包扎塑形,达到手术部位关节塑形、制动、减少换药次数目的的方法,并讨论其注意事项和优点。方法对在重庆医科大学附属儿童医院进行手术治疗,并于2019年1至12月在门诊换药随访的手足畸形患儿资料进行回顾性总结。术后切口外涂莫匹罗星软膏,采用防粘连敷料、无菌纱布及绷带、粘性胶带分层包扎,并通过敷料堆积的厚薄以及绷带缠绕的方向使关节固定于术者需要的位置,必要时外层加用小夹板制动,指(趾)顶端预留观察窗。术后观察指(趾)血运,48h无异常时封闭观察窗。包扎无渗液、无异味、未被液体污染者
目的探讨颅缝早闭症患儿颅骨重塑术后相关并发症的诊治。方法回顾分析2012年1月至2018年1月复旦大学附属儿科医院行各种颅缝早闭手术的颅缝早闭症患儿临床资料。总结分析患儿术后并发症及相关诊治情况。结果共纳入61例患儿,男42例,女19例;矢状缝早闭17例,平均年龄8.2个月(6~48个月);额缝早闭13例,平均年龄13.0个月(6~29个月);单侧冠状缝早闭17例,平均年龄15.2个月(7~48个月);综合征型颅缝早闭14例,平均年龄18.7个月(6~60个月)。61例中共有13例患儿发生15例次并发症,
目的探讨单侧唇裂术后继发鼻畸形的矫正方法。方法选择2017年5月至2019年10月上海玫瑰医疗美容医院收治的单侧唇裂术后继发鼻畸形患者,综合采用唇鼻肌肉张力带重建、鼻中隔偏曲矫正,自体肋软骨鼻尖软骨支架重建及下外侧软骨支撑移植等手术方法治疗唇鼻畸形。结果共纳入单侧唇裂术后继发鼻畸形患者24例,男10例,女14例,年龄17~22岁,平均20岁。患者伤口均一期愈合,无感染、延迟愈合等情况发生,鼻部对称性均得到明显改善。随访3~24个月,与术后即刻相比,均无复发情况,上唇及鼻部形态良好。结论对于唇裂术后继发鼻畸
得益于各国月球轨道器的在轨工作,现已获取了大量可用于摄影测量三维制图的轨道器影像数据。这些传感器在不同时间、不同视角条件下对部分月表进行了重复观测,形成了多重覆盖特性。多视影像相对于单立体影像包含更多的信息量,理论上可得到质量更优的数字高程模型(Digital Elevation Model,DEM),从而更好地支持月球科学研究或月球探测工程任务。由高分辨率DEM提取的坡度值普遍被认为更接近于真实
高精度的城市绿地空间监测对优化城市绿地空间结构、维护城市生态平衡以及开展绿色城市建设具有重要意义。随着我国卫星技术的快速发展,兼具高空间分辨率与宽覆盖特点的遥感影像为城市绿地信息提取等领域提供了重要的数据保障;另一方面,深度学习语义分割模型的飞速发展,也为高分辨率遥感影像城市绿地快速、高精度提取提供了算法支撑。本文选择北京市五环内城市绿地为研究对象,选取多时相的高分2号遥感影像作为数据源,提出一套
城市群是城市化发展到高级阶段的城市组织形态,由特定地域范围内多个城市聚集而成。近几十年来,城市化已成为人类历史中最重要的变化之一,深刻影响着人类社会的发展和自然环境的变迁。夜间灯光遥感在长时间、大尺度的城市化监测中具有广泛的应用。DMSP/OLS(1992-2013)和NPP/VIIRS(2012-至今)获取的夜间灯光信号是全球城市化监测的主流数据源,然而两代夜间灯光数据之间的数据差异阻碍了基于夜
近年来,城郊山区的旅游业高速发展,使其成为城市居民短途郊游的佳选,而城郊景区往往以生态旅游、寺庙为主且依山而建,这类区域往往具有建筑与植被混合分布的特点被称为森林城镇交界域(Wildland–Urban interface,WUI),故密集性的游客活动给其带来巨大的潜在性火灾安全隐患。该区域的火灾安全管理倍受地方政府的关注,但其信息化水平低常导致应急救援时信息获取不及时,错过最佳救援时机,带来巨大
位于丝绸之路经济带帕米尔高原的萨雷兹湖,是世界上已知最大的高原堰塞湖,多年来水位保持着波动上涨的趋势,其坝体崩解导致湖水下泄将会给下游中亚多国人民带来巨大灾难。萨雷兹湖水量变化特征及其驱动因素缺乏具体研究。本文采用Landsat影像、ICEsat及Cryosat-2测高数据、DEM数据开展了萨雷兹湖水资源及流域冰川变化监测研究,结合气象等数据通过多因素相关分析探索了萨雷兹湖水资源变化的驱动因素。主
湖泊水位是水循环和气候变化的重要指示因子。雷达测高技术作为水位观测的替代手段,近年来被广泛应用于湖泊水位监测中,尤其是无水文观测的湖泊或跨国界湖泊。传统脉冲有限雷达高度计由于其脚印点较大,在观测中小型湖泊时容易受到陆地噪声信号的干扰。随着多普勒延迟技术与开环跟踪技术在Cryosat-2、Jason-2/3、Sentinel-3A等新型雷达高度计中的应用,中小型湖泊水位高精度反演成为可能。本文即针对
非洲锰矿资源丰富,储量、资源量排名在世界上均列第一。非洲锰矿成因类型种类多样,有前寒武系条带状铁建造(BIF)型、海相沉积型、陆相(三角洲湖相)沉积型、与岩浆作用有关的热液型锰矿床等,其中以前寒武系条带状铁建造(BIF)型和海相沉积型最为重要,其资源量分别占非洲锰资源量的61% 和35.9%。非洲锰矿资源广泛分布于南非卡普瓦尔克拉通盆地北部边缘、刚果克拉通盆地西北部边缘、西非克拉通盆地边缘及阿特拉