基于注意力机制的鲁棒的自然场景文本识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:detectivexiat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是用于记录、交流和传承文明的符号,其历史可以追溯千年。在大数据时代,通过智能手机、平板电脑和数码相机等终端设备获取的图像数量日益增加。自动地识别海量自然场景图像中的文本不仅有助于场景理解,而且能够节约录入文本信息所需的人力资源。本文围绕自然场景文本识别领域,探究并改进了基于注意力机制的自然场景文本识别算法。本文的主要研究工作和创新如下:(1)本文详细介绍了自然场景文本识别领域的发展历程,对比了领域主流识别算法的优缺点,并重点剖析了注意力机制的不足之处。虽然注意力机制能够自动地分配特征图不同位置的权重,聚焦重要特征并滤除无用信息,但是它忽略了文本间的语义相关性,因而限制了自然场景文本识别系统的识别性能。(2)针对注意力机制的不足之处,本文提出了自适应的门控注意力机制。门控注意力机制通过引入高阶统计语言模型,有效地重构了注意力机制内部字符级隐式语言模型的建模过程。门控注意力机制能够自适应地预测相邻字符之间的语义关联强度,从而为解码过程提供更加准确的语义特征,改善了识别性能。此外,门控注意力机制的灵活度更高,鲁棒性更好。实验表明在面对相同的环境噪声干扰时,门控注意力机制展现了超越普通注意力机制的适应能力。(3)针对语义场景变化带来的灾难性遗忘问题,本文提出了一种新颖的基于域自适应的复合文本识别网络。域自适应的复合文本识别网络能够使不同域的文本在共享大量视觉参数的同时,独享少量解码参数,单独建模当前域的语义特征,从而缓解了因语义场景变化带来的灾难性遗忘问题。此外,为了加强复合文本识别网络的语义特征,加快网络的推理速度,本文进一步提出了基于域自适应和门控注意力机制的复合文本识别网络,以及基于域自适应和对比学习的复合文本识别网络。特别地,后者在不改变网络结构、不增加额外数据和参数的情况下,能够直接提升模型的识别性能。综上所述,本文工作的研究意义在于充分利用文本独特的语义信息,改善基于注意力机制的自然场景文本识别算法的性能并缓解因语义场景变化带来的灾难性遗忘问题。
其他文献
共享经济作为一种新经济业态,近几年在国内迅速成长,遍布各个领域。共享经济的发展催生出了新型的用工形式,平台企业利用互联网技术搭建起链接市场需求和服务提供者的平台,创造了新的就业机会。在共享经济模式下,平台从业者与平台企业之间的劳动关系更加灵活开放,使得劳动关系认定出现困难,劳动权益因而无法得到合法保障。这一问题已经得到一部分学界的关注,已有研究对于平台从业者劳动关系认定问题以及劳动权益保障现状问题
学位
公益慈善基金会掌握了一定的公共资源,运作大量的资金,是一种“公共”色彩极为浓厚的组织。在现有社会中,与其他社会组织相比,社会公众对公益慈善基金会的要求是最高的,无论是站在公益慈善基金会自身发展的角度,还是在募捐、善款使用和项目监管等运营方面都受到公民的关注。对公益慈善基金会可持续能力评估的研究有利于分析公益慈善基金会的发展状态,总结公益慈善基金会在发展中取得的成绩和经验,对公益慈善基金会进行可持续
学位
<正>“全球南方”概念持续升温,成为国际社会竞相讨论的话题。有观点认为,“全球南方”作为一支新的世界政治力量正在加速崛起。当前,百年未有之大变局加速演进,世界变乱交织。“全球南方”概念的提出意味着什么?我们能从中看出国际秩序演变的哪些趋势?“全球南方”未来发展的中国因素又有哪些?本期“封面话题”,
期刊
非接触式生命体征探测在医疗检测、健康监护、灾害救援、国际反恐等众多领域有着广泛应用。多普勒雷达在实现非接触式生命体征探测方面具有穿透性较强,不受障碍、光照、温度等外部因素的影响等优势。因此基于多普勒雷达的非接触式生命体征探测受到学术界和工业界的广泛关注。本文主要针对生命体征探测多普勒雷达的后端信号处理算法进行研究。本文的主要工作如下:第一,将人体反射的雷达回波信号建模为一系列复指数信号的线性组合,
学位
期刊
随着社会经济的不断发展,中国已成为世界上最大的能源消费国。根据国家统计局最新数据显示,2018年家庭部门能源消费总量占比达12.81%,是我国第二大能源消费部门。而随着化石能源消费的不断增加,由能源消费引起的环境问题日益严峻。而家庭部门作为人类社会生存发展的基本单元,其能源消费对社会、经济以及环境都有着重要的影响,由此带来的环境问题也日益严重。因此,优化家庭部门能源消费结构具有重要价值,从而让家庭
学位
城乡中国发展新时期,城乡发展由以往牺牲乡村发展来推动城市建设转向城乡统筹协调发展,各类城乡资源要素流动趋向自由化,基本公共服务配置逐渐合理化、均等化。与此同时,以人为本的价值导向成为共识,以“流”定“形”的研究范式为各类资源合理配置提供新视野。半城镇化地区是城乡之间的过渡区域,在土地利用、景观格局、人口及产业构成等经济社会要素及形成机制方面具有独特性,而珠三角地区城镇化更是典型的流空间驱动下的城镇
学位
核安全是核电发展的重要基础,也是我国国家安全的基石。如何在确保安全性的基础上评价核电机组在动态运行过程中的经济性,已成为核电监管机构、业主与各个科研单位共同关注的前沿热点议题。核电厂作为大型复杂系统,运行工况多样,系统运行呈现时序性、阶段性和瞬态等动态特性,且具有多态性、相关性和不确定性等其他特性。传统故障树/事件树分析方法难以针对以上特点进行精确建模和量化分析。GO-FLOW作为一种以成功为导向
学位
十八大以来,我国社区治理进入了以党的建设为引领的新时代。对于我国城市社区治理创新研究而言,既不同于传统的行政管理体制,也不同于西方意义上的自治模式,国家-社会关系理论、治理理论和社会资本理论等备受推崇的主流分析框架因缺乏政党维度不直接适用中国。主要体现在我国政党在国家社会的权力上,以及在治理结构和社会资本生成过程中的特殊地位和作用。当前对党建参与社区治理的研究也多集中于党建和社区党建的困境、问题和
学位
文本情感分析一直是自然语言处理领域中最受关注的热点研究方向之一。这一技术在社会、市场和医疗等领域中发挥着重要作用。特别是在心理健康领域,文本情感分析技术可以帮助心理医生在人群中快速筛查心理不健康的人员。随着以BERT(Bidirectional Encoder Representations from Transformers)为代表的各种预训练网络的兴起,文本情感分析取得了巨大进展。尽管如此,如
学位