面向场景文本识别的语义独立深度学习方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:amorg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字自诞生起就承载着传递信息的责任。随着互联网技术与移动技术的迅速发展,存储在计算机上的信息以指数级别爆炸增长。文本作为信息的载体也因此增长迅速。对于计算机而言,存储与利用自然场景中的信息是以红绿蓝为基础元素的图片。令计算机自动识别图片中的文本信息有着广泛的应用意义,如自动驾驶、票据识别、人机交互等。近几年来,效果最好的模型大都是基于视觉语义的模型,这类方法通常先使用一个特征提取器将二维的图片提取为视觉特征图,接着利用语义模型(或称为语言模型)对前面得到的特征图进一步编码,得到语义特征,然后综合利用视觉特征与语义特征得到最终的识别结果。但是这种方式后一步的语义模型通常高度依赖视觉特征。这种将语义特征与视觉的特征耦合的方式有两个缺点:一是语义模型多是沦为视觉模型的纠正器,仅仅用于更正视觉模型得到的结果。语义模型在整个流程端对端训练,但是其实际意义却是作为后处理部分,这就导致了模型的冗余,梯度链增长难以训练。其次利用语言模型对于视觉模型的结果进行纠正,这种方式的确可以很大的提高准确率,但是自然场景应用中广泛存在着错误的文本信息,比方说手写试卷识别与批改,对于错误的文本,模型会识别后自动将其纠正为正确的,这大大偏离了批改的本意。为解决上述提出的问题,本文提出了一种新颖的语义独立网络(Semantics Independence Network),将语义模块独立出来,使之成为与视觉模型对等的部分,使得视觉模型更加关注二维的视觉特征,而语义模型更加关注一维的语义特征。此外,本文提出视觉语义融合模块,将视觉特征与语义特征充分交互。通过以上两种方式,语义模块可以独立地处理语义信息,视觉与语义模块可以充分解耦,并且又充分利用了两部分的特征。针对目前文本识别网络冗余的问题,本文提出用于分析场景文本识别模型模块参数冗余的剪枝方法,为设计场景文本识别网络时是否使用某一模块提供了检验方式,本文提出冗余参数修剪的方式并引入了层感知的剪枝率设置,对本文提出的语义独立的场景文本识别方法进行分模块的后剪枝,有针对性地分析了本文提出的语义模块,融合模块的有效性以及当下场景文本识别网络广泛使用Transformer网络参数的冗余性。本文的主要贡献如下:(1)提出了一种语义独立的文本识别方法,它不同于之前模型仅仅利用截断梯度来解耦视觉与语义模型,而是从模型结构上进行调整,实现结构上彻底的解耦。(2)提出了一种新的视觉语义特征融合模块,摆脱了二维视觉特征与一维语义特征之间的语义鸿沟问题,充分利用了视觉特征与语义特征。(3)提出了一种用于冗余参数修剪的方式并将其用于本文识别模型,针对本文提出的语义独立模型场景文本识别方法的各个模块进行剪枝,并分析了各个模块的冗余程度。(4)引入了层感知的剪枝率设置,并将其运用于本文提出的冗余参数修剪方法,将不同待剪层之间的差异考虑进剪枝方法,有针对性的对不同层进行剪枝。
其他文献
随着科技以及电子设备的日益发展,在线学习逐渐成为一种流行且常见的教育方式。在线学习具有资源多元化、易于使用、受众面广泛等优点,学习者可以不受时间和地域限制地进行学习,然而其缺少了传统教育所具有的实时的反馈机制。实时且准确地对学习者的在线学习过程中的学习参与度进行评估,不仅能够给予学习者足够的监督反馈使其保持良好的学习状态,而且能够给予授课者适时的教学反馈使其有效提高教学质量,对于在线教育的发展具有
学位
近年来,继人脸识别、指纹识别、声音识别、动作识别等生物识别技术之后,基于心电信号(Electrocardiogram,ECG)的身份识别(以下简称心电身份识别)凭借其活体检测、隐私性高、安全性突出等独特优势,已成为一种被广泛关注的新身份识别技术。目前,心电信号虽已成功应用于身份识别,但其识别性能远不如其他生物特征技术。心电信号容易受到各种干扰噪声的影响,稳定性比较差,而且具有高区分性的特征并未得到
学位
股票预测是指对股票具有深刻了解的研究人员根据股票行情的发展进行的对未来股票趋势方向以及涨跌程度的预测行为。然而,由于股票市场的高度波动性和非平稳性,极大增加了股票预测的难度。新闻媒体信息的爆炸式增长以及自然语言处理和文本挖掘技术的不断发展为股票预测的进一步研究提供了新思路,使研究者能够从众多的新闻媒体信息中揭示市场趋势和波动性。在现有的基于新闻文本的股票预测方法中,大多数方法主要以单一新闻信息(如
学位
大学教育中的语文教育是多方面、多样性的综合体,素质教育也是培养大学生的重要内容,不仅要把思政融入到教学中,更要突出表现大学生自身的特点。大学语文课程是一门重要的基础性学科,是以围绕人文教育开展的核心课程,充分利用语文课堂这一途径,发挥学科特长,将思政教育有效结合,推动大学语文教学改革,以达到以德树人的根本目标。课程思政教育下的大学语文课堂要获得良好的学习效果,需要教师不断地提高自身能力,还需要学校
会议
随着物联网的不断发展,物联网设备的数量和种类正在急速增加。物联网设备应用十分广泛,有一部分物联网设备无法使用传统的电池或电源进行供电,因此需要用到能量收集技术。能量收集就是通过收集物联网设备周围的微小能量(例如太阳能、风能等),从而达到维持自身系统对电能的需求。能量收集可以为不方便使用传统供电方式的物联网设备供电,保证物联网设备的运行。但是,由于能量收集设备的能量输出通常很弱且不稳定,因此物联网设
学位
标签割问题是定义在标签图上的一类经典的组合优化问题。标签图由顶点集、边集、标签集以及边集到标签集的映射组成。在算法研究中,标签割问题是一般图上对应优化问题的推广;在实际应用中,标签割问题被用来衡量共享风险链路网络的健壮性等。最小s-t标签割问题是标签割问题中的基本问题,其目标是在标签图上求一个最小标签子集,使得在图上删除该子集对应的边集后,s点和t点不再连通。最小s-t标签割问题,一方面,是最小s
学位
分子对接是在药物发现过程中一种被广泛使用的计算方法。它通过计算机模拟的方式在受体蛋白质的结合位点中对类药小分子进行姿态定位、评分、排名,以选择出优先用于后续实验测试的化合物,这一过筛选过程将极大地提高后续实验的成功率从而减少时间和经济成本,因此计算机模拟分子对接在药物设计与研发流程中作用重大。在新药研发过程中,对某一特定受体可能需要在数十亿类药小分子中搜索较优的小分子及其与受体蛋白结合的姿态。因此
学位
开源代码平台为科研人员提供了分享和交流代码的环境,近几年,深度学习在自然语言处理、计算机视觉、生物计算等科研领域取得了很大成功,越来越多的深度学习模型和代码在开源平台分享。针对特定问题,研究人员有必要查找相关解决方案,将可复用代码进行对比和性能分析,但现有系统在代码检索和对比方面很少关注算法描述中的专业词汇、函数调用结构等技术特征。为此,本课题改进了基于通用文本的关键词抽取方法,更好地融入反映代码
学位
在现实世界的光照环境下,许多材质有着高频变化的外观光泽闪烁现象。这种现象的成因在于:物体表面上无数微观结构中的一部分形成了完美镜面反射或折射,将尖锐的强烈光源入射到这些微观结构位置上的光线所携带的能量较大比例地散射到观察位置,被人眼观察到。在高度真实感渲染领域里,高精细程度的表观细节材质模型对于提升场景的真实感起到至关重要的作用。传统的材质模型容易使画面变得“油腻”、单调或亮度不正确。而优秀的金属
学位
以群组形式组织和参与活动成为当前移动社交应用的流行趋势,推荐系统的关注点也从面向个体的“个性化”扩展到面向群组的“共识化”。群组成员偏好聚合大多采用预定义的固定策略,例如均值聚合、最小痛苦聚合、最大满意聚合等,这些策略很难捕捉到复杂而动态的群组决策过程,对于近期提出的神经网络模型,成员之间的相互影响及动态的决策过程很难形成输入并通过训练进行表征。而为群组做出推荐时,如何能捕捉到用户的行为序列模式和
学位