融合多特征的老挝语文字识别及后处理方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:db8533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
老挝语属于低资源语言,文本语料稀缺使得老挝语自然语言处理的基础任务难以开展,而老挝语的光学字符识别研究在一定程度上能解决语料匮乏的问题,可为老挝语自然语言基础任务的研究提供大量语料。而文字识别技术能力有限,识别结果存在错误使得识别后的老挝文本不能直接用于自然语言处理基础任务。故对老挝文字识别后的文本进行后处理,尽可能纠正错误能有效提高老挝文字识别准确率,以及提升老挝文字识别结果在其他任务上的可利用性。因此,对老挝语的文字识别及后处理研究具有重要意义及研究价值,本文提出了一种融合多特征的老挝语文字识别及后处理方法,旨在解决老挝语在该研究中存在的难点。本文主要工作如下:(1)融合字符结构及音节特征的老挝语文字识别方法。针对老挝语资源匮乏且文字结构复杂导致文字识别困难的问题,提出一种融合老挝语特征的老挝语文字识别方法。首先以合成数据扩充语料库,然后以具有残差结构的卷积神经网络为主干,加入卷积注意力模块,以提取老挝文字图片的图片特征;其次,通过注意力机制动态分配权重组合图片特征信息与老挝特征向量;再有,用双向长短期记忆网络编码组合特征,以预测老挝文字序列标签的真实分布;最后,采用连接时序分类对标签分布进行序列对齐。为证明该方法的有效性,进行了不同对比实验,结果表明,识别准确率达到了87.94%。(2)融合字形特征的多任务老挝语文字识别后处理方法。针对老挝文字识别后存在大量老挝相似字符替换错误的问题,对识别结果进行后处理。引入基于长短期记忆网络的seq2seq模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,同时,采用多任务学习的方式,以错误检测辅任务优化模型后处理效果,大大降低模型的误纠率。此外,针对相似字符替换错误以数据增强方式扩充训练集。结果表明,该方法有效提升了老挝语文字识别结果的准确率,达91.32%,也获得了较低的误纠率,为5.84%。(3)融合词法特征的联合编码老挝文字识别后处理方法。针对老挝文字识别后存在的字符断裂、粘连等所导致的字符替换、插入及删除错误,在(2)的基础上联合多尺度CNN网络进行特征编码,以提升模型对文本序列局部特征的提取能力,将老挝词法特征融入模型,从而提升模型纠正字符插入、删除错误的能力。并将CNN与Bi LSTM输出的编码向量线性组合后输入后处理解码端,再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选。实验结果表明,该方法可同时提升模型对老挝文字识别结果存在的字符替换及字符插入、删除错误的纠正能力,使文字识别结果准确率提升至92.95%,且进一步降低模型误纠率至2.92%。
其他文献
随着互联网、5G、大数据、人工智能的飞速发展,媒体传播生态发生了根本性改变,人们获取信息的渠道和方式变得越来越多元化。第49次《中国互联网络发展状况统计报告》显示,截至2021年12月,我国网民规模达10.32亿,其中手机网民规模达10.29亿,网民使用手机上网的比例为99.7%。移动互联网迅速发展,导致舆论生态、媒体格局和传播方式等发生深刻变化,人们的信息获取方式也随之发生变化,每个人既是信息的
期刊
随着中老铁路的开通,中国与老挝的交流日益紧密,对老挝语的研究也显得越来越重要。本文通过研究汉语与老挝语在句法、词语形态学等语言学的差异性和相似性,将汉语与老挝语的语言学特征融入文本相似度计算模型,力求缩小语言差异给模型造成的影响,提高模型的泛化能力与准确率。老挝语属于低资源语言,语料匮乏,针对此问题,本文根据词性、非关键词等方法对词语进行分类,并提出一种基于同义词替换的数据增强技术,旨在扩充汉老平
学位
由于近年来很多行业对互联网技术的高度关注,以及网络和社交媒体技术的快速发展,信息传播变得更加多渠道化,对有关部门而言实现网络信息的有效管控十分关键,尤其是关于网络上涉案领域舆情信息的监管。涉案舆情信息与一般的网络信息相比更具有敏感性,也对信息汇总与监管的技术提出了在性能方面上的更高要求。面向涉案舆情新闻信息汇总描述相同话题的新闻,以及生成与话题描述相关的简短摘要,对有关部门掌握舆情新闻的关注动向,
学位
输电杆塔上的鸟巢检测作为电力系统巡检的一项重要研究内容,这是因为鸟类在输电杆塔上的筑巢活动所导致的输电线路安全事故频频发生。在我国鸟类数量巨大,鸟类的活动可能给高压输电线路的正常安全运行带来隐患,对国家电网造成严重的经济损失,所以针对输电线路上存在的鸟巢有必要提出一套行之有效的解决方案。本文针对如何识别高压输电杆塔上的鸟巢,通过对国内外鸟巢检测方法的研究,找到了一种融入纹理特征的鸟巢自动检测方法。
学位
现如今,输电塔线路作为国家规划建设输电网络的生命线,其安全状态对稳定安全的电力运输有着极为重要的影响,输电线路一旦发生故障,会引起线路瘫痪及一系列其他危害,因此,对输电塔线进行安全状态的监测和评估具有实际意义。导致输电塔线路中出现的故障的原因是多种多样的,而且其中,影响最为严重的是覆冰现象所导致的故障。输电塔线路覆冰不仅会直接导致线路荷载增大,覆冰的导线所受风力的作用也会被放大。因此对输电塔线进行
学位
太阳光球亮点与磁场有着密切的联系,光球亮点近似旋转的曲线运动意味着磁通量管发生了振荡,继而以波的形式通过磁通量管向色球和日冕传送能量,从而加热日冕。所以,光球亮点的曲线运动对研究太阳内部的能量如何传输到日冕层具有重要意义。本文基于深度学习的方法,提出一种多尺度多模态的策略对光球亮点的曲线轨迹段检测方法展开研究。本文建立了可靠的光球亮点轨迹数据集。数据集由光球亮点的真实轨迹数据集和模拟轨迹数据集两部
学位
人格是一种心理构造,可用于描述和解释人类的行为,是一种推荐系统领域内尚未被应用的非结构用户数据。人格作为人类心理特质的直接映射,可对人类偏好产生重要影响。近年来,互联网的海量数据给人们带来严重的信息过载问题,导致用户难以准确获取与其需求相符合的信息。推荐系统能够根据用户历史行为数据,分析其潜在偏好,为用户提供个性化推荐,成为缓解信息过载问题的有效手段。现有推荐系统主要是基于历史信息的推荐,以用户评
学位
近年来,随着虚拟技术的发展,关于增强现实(AR)界面下的人机交互技术的研究越来越多,建立增强现实界面的人体功效学模型可以使交互变得更加高效。并且随着具有动态内容的交互式系统的出现,如监控系统、游戏等,关于动态目标选择的研究也越来越多。因此,通过建立人类工效学模型,来评估增强现实界面中动态目标选择任务就具有非常重要的意义。增强现实界面中目标位置的不同会造成两种情况,即用户能够触摸到的近处目标和无法触
学位
信息物理传感网是针对信息物理系统应用场景的一种特殊的无线传感器网络,该网络主要应用于信息物理系统重要信息来源的感知执行层,而感知层节点易被攻击泄露重要信息,为保障节点信息安全,需要利用定位算法精准定位被攻击节点的位置,因此如何提高定位算法的定位精度已成为研究热点。DV-HOP算法是进行无线传感器网络节点定位的常用算法,该算法由于其成本低且无需测距的特性受到广泛关注,但在信息物理系统应用场景中,算法
学位
在我国努力实现碳达峰、碳中和的背景下,甲醇作为可再生能源具有巨大的节能减排潜力,因此研究与开发柴油/甲醇双燃料发动机受到了越来越多的关注。柴油/甲醇双燃料发动机进气管路内存在压力脉动以及复杂的流动过程,如果能合理地设计进气管路的结构参数如管长、管径和容积等,便能够有效利用进气谐振效应,改善甲醇与空气的混合效果和提高进气效率,从而提高柴油/甲醇双燃料发动机整体动力性与经济性。通过数值模拟方法,研究进
学位