面向真实场景的手写文本识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lym50691064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写文本识别是模式识别领域中的一项重要任务。得益于近年来计算机科学和深度学习的飞速发展,手写文本识别技术的应用场景逐渐变广。常规的手写文本数据集已不足以应对多样的真实场景的研究需求。另一方面,主流的篇幅级手写文本识别方法依赖于文本检测器,在真实场景下性能较差。因此,本文面向真实场景进行手写文本识别研究,主要工作包括:1.分析了现有手写文本数据集的局限性,并针对手写文本识别技术的一项真实应用场景——教育文档场景,总结了其中的特殊挑战。在此基础上,本文构建并公开了一个大规模的教育文档数据集,设计了基于全卷积网络、残差长短期记忆模块和联结时间分类解码器的手写文本识别网络。实验验证了数据集的挑战性和识别网络各模块的有效性。2.针对主流的篇幅级文本识别方法中存在的错误累积问题,提出了一种简单而有效的新方法隐式特征对齐(Implicit Feature Alignment,IFA)。此方法通过密集预测将行级文本识别器转换成免检测的篇幅级文本识别器,统一了行级和篇幅级文本识别的流程。具体地,本文将IFA分别融入到基于注意力机制和基于联结时间分类的行级文本识别方法中,提出了两种全新的文本识别方法:注意力引导的密集预测和扩展联结时间分类。此外,本文还提出了基于Wasserstein距离的镂空集聚交叉熵(Wasserstein-based Hollow Aggregation Cross-Entropy,WH-ACE)损失函数,它能够抑制密集预测过程中的负样本噪声,从而帮助IFA达到更好的性能。实验验证了WH-ACE损失函数的有效性,证明了IFA可以在篇幅级文本识别任务上取得最佳性能的同时保持最快的速度,并在真实场景中表现优异。综上所述,本文构建并公开了能给手写文本识别领域带来全新挑战的真实场景数据集,并提出了简单而有效的手写文本识别新方法,它缩短了篇幅级文本识别的流程,为今后手写文本识别研究提供了崭新的视角。
其他文献
随着居民生活水平的提升,个性化产品已成为新消费时代下的重要消费诉求。C2M模式(Customer to Manufacturer)实现了用户端(C端)到制造端(M端)的信息互通,通过对消费者行为数据的收集与分析,可指导制造端以满足用户个性化需求为目标进行设计和生产。电商平台有效连接起了供需两侧,凭借海量消费数据和技术资源,借助C2M模式将在个性化产品开发中扮演越来越重要的角色。本文以J公司为研究对
益生菌是一类对人体有健康益处的活性微生物,但是其对外界环境的变化较为敏感,酸、碱、热、氧气、机械力、消化酶等不利因素易使益生菌失活,导致其功效价值降低,从而限制了益生菌在食品工业中的应用。针对上述问题,微胶囊化技术是可靠的益生菌增效手段,具有广阔的应用前景。美拉德反应产物(Maillard reaction products,MRPs)是食品加工中常见的蛋白质糖基化产物,具有良好的成膜性、乳化性和
近年来,受全球气候变化的影响,海上极端恶劣天气(寒潮、风暴、台风等)频繁发生,其中,台风天气是影响珠江口水域的主要恶劣天气,会对船舶进出港作业带来极其不利的影响,是造成船舶延误的重要原因,会导致船舶运营产生极大损失。目前,台风天气下珠江口水域船舶的疏散调度是以满足安全为前提,基于先到先服务(FCFS)原则安排船舶尽快疏散出港,不会考虑疏散成本。而船舶的恢复调度是按照基于FCFS原则的次序恢复进港作
纳米硒由于其本身具有的如抗氧化、降血糖、抗衰老等诸多生物活性,且作为人体补硒产品的潜在形式,近年来受到广泛的关注。目前纳米硒的制备主要以多糖等生物大分子物质作为修饰剂,采用化学还原法进行制备,用于纳米硒制备的多糖种类多样,但羊栖菜多糖纳米硒的制备及生物活性研究尚未见报道。本研究采用超声辅助热水法提取羊栖菜多糖,单因素结合响应面实验对提取工艺进行优化,总结出一条最佳的羊栖菜多糖提取工艺。以自提的羊栖
随着经济高质量快速发展,作为电力传输“最后一公里”的配电网的建设也在快速推进,配电设备数量正在急剧增加,而供电部门运维人员的数量却几乎保持不变,使得人均设备维护量不断增加,运维压力越来越大,巡视周期不断拉长,以往采用的“一月一全巡”的无差异巡视策略执行难度明显增大。近年来,社会各界对供电可靠性的要求越来越高,传统的巡视策略无法和高可靠性的供电要求相匹配。目前,各供电部门都正探索开展配网设备差异化运
在新的传播格局下,微博信息流广告以大数据算法技术和平台用户流量为基础,研发了新的广告运营策略,为广告商和广告主带来盈利增长。微博信息流广告区别于传统原生广告,在制作与投放上都有着突出的新特点,本文从技术逻辑、市场逻辑、内容与价值逻辑三个方面分析微博信息流视频广告的传播逻辑,并从媒介学视角对该现象进行反思,为其日后的发展提供优化建议。
移动机器人集控制、通讯、感知、机械等多个学科技术,一直是学者们高度关注的研究领域。随着科学技术快速发展,移动机器人技术日趋成熟并渐渐应用于人们的日常生活中,如自动引导运输车、迎宾机器人、辅助驾驶车辆等等。在面对越发复杂的应用场景,对移动机器人的智能化要求就越高。其中自主导航、移动避障、轨迹跟踪则是移动机器人最基础也是最关键的功能,具有非常重要的研究意义。本文将基于激光雷达,对移动机器人的二维地图构
随着计算机技术的不断发展,各种软件工程管理系统的流程越来越多,操作越来越繁琐,不同企业需要不同的工作流程,但是却有着相似的开发过程,单独地开发企业的软件业务管理系统,浪费大量的人力,且代码冗余等问题也将变得很突出。针对以上问题,本文提出任务路径的概念。任务路径是一种通用的业务流程开发工具,支持业务流程的标准化、规范化。流程的每个子操作定义为任务路径节点,只操作之间如何相互转移定义为节点之间的关系。
广府地区具有较丰富的历史建筑资源,其中祠堂数量较多。由于长期受到自然环境的作用,多数木结构的祠堂建筑存在着不同程度的残损,需要及时的修复和维护。木结构建筑中榫卯节点连接是结构中的关键部位且容易在此位置产生损伤,这对结构在地震响应下的受力性能影响巨大。本项目依托自主研发的雀替形钢板-橡胶组合阻尼器,对广府古建筑进行无损加固,并探究加固前后的抗震性能,力求为历史文物遗产的修复提供理论依据和设计参考。本
机器人应用在机加工制造领域相较于传统的数控机床具有灵活性高、成本低、加工范围广、并行协调作业能力强等优点,因此机器人在切削加工领域的应用逐渐增多。然而,工业机器人由于自身多关节串联结构的特点,存在着绝对定位精度低、刚度弱两大问题,这严重制约了机器人在高精度制造领域的应用。因此,解决机器人低精度、弱刚性与复杂零件高精加工之间的矛盾,是机器人加工领域的研究热点。本论文针对机器人铣削加工中绝对定位精度低