【摘 要】
:
在大数据和深度学习发展的推动下,文本图像识别对人们的日常生活产生了重要的影响。本文围绕文本图像识别任务,在基于编码器-解码器的文本图像识别模型的基础上进行研究并加以改进。具体来说,在编码阶段分别采用基于注意力机制的特征提取模型和基于时序卷积的模型来完成视觉特征的提取和特征序列的建模;采用基于多层次特征的聚合机制来聚合不同层次的信息;解码阶段利用启发式局部注意力机制完成字符序列的解码。首先,文本图像
论文部分内容阅读
在大数据和深度学习发展的推动下,文本图像识别对人们的日常生活产生了重要的影响。本文围绕文本图像识别任务,在基于编码器-解码器的文本图像识别模型的基础上进行研究并加以改进。具体来说,在编码阶段分别采用基于注意力机制的特征提取模型和基于时序卷积的模型来完成视觉特征的提取和特征序列的建模;采用基于多层次特征的聚合机制来聚合不同层次的信息;解码阶段利用启发式局部注意力机制完成字符序列的解码。首先,文本图像的视觉特征在文本图像识别任务中扮演着重要的角色。因此,本文采用了基于通道-空间注意力机制的特征提取模型来抽取文本图像的特征。其中,通道注意力(channel attention)和空间注意力(spatial attention)模块分别在特征的通道层面和空间层面增强文本图像的视觉特征。实验证明,基于通道-空间注意力机制的特征提取模型有利于提升识别模型的性能。其次,本文采用了基于时序卷积网络(Temporal Convolutional Network,TCN)对特征序列进行建模。TCN不同于传统循环神经网络,它不仅能对序列特征并行处理而且可以通过残差结构来处理信息梯度消失和爆炸问题。TCN在每一层内的参数是共享的并且不需要保存每一时间步的信息。同时,TCN有更灵活的感受野,可以根据不同的任务场景,设计不同的层数、卷积核大小以及扩张系数来满足不同的需求。然后,本文利用多层次特征的聚合机制捕获了不同层次的视觉特征来增强现有的基于编码器-解码器的图像文本识别的标准架构。现有的方法仅仅使用了最深的视觉特征进行时序的建模,但不断扩大的感受野会导致特征向量间的关联退化,因此本文利用多层次特征聚合机制来提升模型的性能。最后,利用基于启发式局部注意力机制的解码器来完成解码过程。对于文本图像识别任务来说,最重要的是获取与当前时间步字符最相关的特征。因此,本文尝试了现有的多种局部注意力方法,并提供了完整的对比结果。此外,受现有局部注意力机制的启发,本文提出了两种基于启发式的局部注意力机制,并通过大量的实验证明基于启发式的单调局部注意力机制取得效果最好。
其他文献
在乡村振兴及美丽乡村建设的不断推进下,农村环境治理的发展现状落后于农业农村现代化发展的步伐,早已不能满足时代发展的新需求。“十三五”时期是我国农村环境保护的攻坚期,崇明在“世界级生态岛”战略目标的推动下,新建1.7万余座农村生活污水处理设施;但在长期运行过程中,大部分处理设施出水总氮、氨氮、总磷不达标,出水C/N较低,可生化性较差。本文通过实地调研,收集、计算、分析崇明农村户均人口、排放系数、处理
在大数据时代,随着电子商务交易和即时通讯平台的快速发展,网络上的短文本数据日益增长。所以,从这些数量巨大的短文本数据中提取出宝贵的知识是十分有必要的。短文本分类是自然语言处理领域的一个经典问题,它基于篇幅较短的文本数据学习其深层语义表征,同时用于分类任务。此类文本的长度通常较短,包含的有效信息较少且文本的口语化严重,具有极强的不规范性。所以,本文针对短文本特征稀少以及不规范的特点,从扩充短文本篇幅
自从进入互联网时代,如何保护信息安全就成为一种常态性的话题。密码在信息安全保护中尤为重要,网络数据的传输、数据库密码保护等都是通过密码算法来保护,一个好的密码算法能极大程度地保护我们想要保护的信息。密码算法主要可以分为对称密码和非对称密码,我们在选择密码时要考虑不同的情境,来决定是选择非对称密码还是对称密码。例如对加密解密的效率要求是否比较高,加密和解密密钥是否相同等。另外,选择密码时衡量效率和安
需求分析在软件工程中处于非常重要的地位,为设计起指导作用,是软件工程中的一个关键过程,需求分析的正确性直接关系到所开发系统的效率和质量。目前需求工程也已经研究出一系列需求分析的方法,金芝等提出的基于环境建模的需求工程方法(EBRE)被广泛应用,该方法显式地对交互环境进行建模,并基于环境模型为需求获取和分析提供系统的过程和需求模型。如何验证EBRE需求模型的正确性是备受关注的问题之一,目前存在相应工
随着计算机与社会各方面的融合越来越密切,计算机被越来越多地用来解决各类科学问题。这些应用的特点在于需要对海量数据进行高效运算。为了解决海量计算的问题,并行计算被提出,这是一种通过多台处理机联合求解问题的方法,而这些被联合起来的处理器构成了超级计算机。然而,随着并行程序与超级计算机结构的日趋复杂,并行程序的实际运行性能与期望性能的差距开始显现。尽管近年来各种超算平台的计算能力迅猛发展,但并行程序的机
主权问题最重要的是设治驻军。清廷管理西藏地区,除了册封达赖、班禅两大系统,由理藩院组织年班朝觐等,更为重要的是在藏多次用兵、驻军以及派遣驻藏大臣,目的在于确保中央对西藏地方的主权。西藏驻军,大致分为藏兵、绿营兵和达木蒙古兵三部分,三者的粮饷来源、职责、驻防地点、换防方式等各不相同,但统归驻藏大臣调遣。3000名编制藏军,在乾隆五十七年(1793)《钦定藏内善后章程二十九条》中得到确立;1400余名
细颗粒物(PM2.5)是我国现阶段城市空气质量的首要污染物。2013年我国正式开展了全国范围内的环境空气质量监测的相关工作,为国内外学者研究PM2.5时空浓度变化以及影响因素提供了宝贵的监测数据,进而为揭示PM2.5成因机制及其防治措施提供科学参考。我国的空气质量监测点(简称国控点)的观测数据具有精度高、时间序列长,监测项目多等优点;但由于点位的建设与管理受到人力物力财力等因素的限制,导致其代表的
利用自动化项目生成技术来产生项目是应对计算机自适应测验背景下题库建设需求的有效方式之一。项目生成的关键是要得到从项目刺激特征预测心理测量学指标的项目生成算法。在前人研究的基础上,本研究将元素属性变化和干扰项的设计特征纳入到矩阵推理测验的项目生成算法中,并以此为基础编制了 40个矩阵推理项目来系统地考察规则、元素属性变化和干扰项的设计特征对项目难度的影响。对项目生成算法的进一步优化将在算法方面给自动
随着中考的改革,英语教学的方式和核心也在发生转变。上海的初三学生在毕业时,需要掌握和综合运用至少1600个英语单词以及固定搭配。此外,学生还需要了解单词的一词多义现象和掌握其在特定语境中的意义。因此,初中英语词汇教学要将重点放在教授学生掌握核心词汇的含义和用法,并灵活地结合语境对目标词汇进行恰当的运用。然而,当前的词汇教学多数依旧采用传统的一言堂模式,即教师上课讲授,学生机械操练记忆。传统的词汇教
机器阅读理解是衡量机器对人类语言理解程度的重要手段,也是实现人工智能的关键一步。近年来,机器阅读理解已经在搜索引擎和智能对话中有了很好的应用。多轮机器阅读理解是机器阅读理解和多轮对话的交叉,机器需要阅读文档回答多个相关联的问题。这种形式更符合人类获取信息的一般方式,因此近年来多轮机器阅读理解受到学术界和工业界的广泛青睐。Qu AC数据集是经典且具有很大挑战的多轮机器阅读数据集,目前机器在这个数据集