基于跨语言学习的老挝语实体识别方法

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:niguibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
老挝人民民主共和国(简称老挝)是与我国相邻的东南亚重要国家。作为我国在东盟自由贸易区的重要贸易伙伴,随着我国“一带一路”倡议的实施,老挝与我国经济和文化方面联系更加密切。在这样的背景下,对老挝语进行自然语言处理(Natural language processing,简称NLP)研究具有重要的经济和文化价值。命名实体识别(Named Entity Recognition,简称NER)是关系提取、构建知识图谱、句子相似度计算、情感分析、机器翻译等下游NLP任务的重要信息抽取工具,在自然语言处理技术中具有十分基础的重要地位。本文针对老挝语NLP基础研究薄弱,网络资源较少的特点提出一种基于跨语言学习的老挝语实体抽取方法,主要工作如下:(1)融合词性及音节特征的跨语言老挝语实体识别老挝语是语料资源匮乏的小语种,获取用于命名实体识别任务的人工标注数据十分困难。但在如汉语这种使用人数众多的语言上,已存在如LTP4和Core Stanza类似的实体标注工具。此外,相对于低资源命名实体识别的标注数据,双语平行句对的获取相对容易。因此提出一种融合词性及音节特征的跨语言老挝语实体识别方法,通过双语词向量相似度计算将汉语端的标注数据投影到老挝语后,按照一定策略进行数据去噪处理后得到具有NER标注的老挝语句子。之后使用BILSTM-Attention-CRF模型进行NER建模。使用融合音节、词性特征的词向量作为输入,经过BILSTM网络后输出隐藏状态向量,之后使用注意力机制进行加权;最后,使用条件随机场(CRF)作为老挝语实体识别模型的解码器。实验表明,基于投影的跨语言老挝语命名实体识别模型的值达到了74.13%。(2)融合音素和词性特征的多任务老挝语实体识别在(1)部分已经获取了带有NER标签的老挝语数据并构建了用于老挝语命名实体识别的模型,但是由于对齐误差的存在,不可避免的会引入噪声数据。为提高NER模型的性能,提升低频词的识别率,提出一种使用词性特征和音素特征的多任务老挝语命名实体识别方法。通过对老挝语词性特征和音素特征的预测,进一步提升模型的性能。最终实验表明采用多任务学习后,模型性能得到有效提升。(3)融合汉老双语多特征的跨语言老挝语实体识别虽然在之前的工作中利用双语词向量相似度计算将汉语端的标注数据投影到老挝语得到了NER标注数据,但是这种方法依赖于汉语端的NER标注工具性能,并且这种硬投影方式往往会带来对齐误差。本文提出一种基于XLM跨语言模型的老挝语命名实体识别方法,采用软对齐的方式让模型自动学习汉-老跨语言知识,通过添加汉老跨语言特征模板以及进行MLM和TLM微调来训练老挝语命名实体识别模型,进一步提高模型准确率。最终实验表明,基于XLM跨语言模型的老挝语命名实体识别方法的值达到了76.65%。
其他文献
随着化石柴油的逐渐减少以及人类环保意识的日益增强,开发一种具有化石柴油相当特性的替代品显得尤为重要。生物柴油被认为是化石柴油的一种理想替代品。传统用于催化制备生物柴油的酸碱催化剂,存在腐蚀、污染、催化剂回收困难等不利影响。离子液体(ionic liquids,ILs)具有热稳定性高、挥发性低和液程范围宽等特点,既可以作为生物柴油生产的催化剂,又可以作为酶法催化制备生物柴油的反应介质。然而传统的由卤
学位
Al-Si-Cu-Ni合金是一种性能优良的钎料合金,具有熔点低,湿润性好,流动性好等优点,大量应用于铝合金的钎焊中。传统铸造合金中粗大的骨棒状第二相组织会割裂铝基体,导致合金的脆性很大,严重影响合金的加工性能。喷射沉积连续挤压技术,简称Spray Conform(SC)是一种材料成形新技术,同时具备喷射沉积工艺与连续挤压工艺技术的优点,如工艺流程短、高效节能,制备合金的致密度高、组织细小均匀、无宏
学位
随着“中国制造2025”战略的提出,使制造业发展迎来了新的契机与活力。工业机器人是智能制造的重要基石,随着工业的不断转型和升级,工业机器人正向着高精度、轻量化等方向发展。为满足机器人对工业生产的性能需求和快速适应复杂工作坏境,掌握机器人的动态特性,准确有效提高其力学性能具有重要意义。本文以某型号六杆串联机器人为研究对象,以提高机器人力学性能为目的,通过理论分析、有限元仿真与实验研究相结合的方法对机
学位
为了探讨硒化改性对小麦麸皮多糖生理活性的影响,文章以麦麸为原料,采用超声波辅助热水提取法和DEAE纤维素-52层析法分离得到一多糖组分,命名为W2。利用HNO3-Na2SeO3法改性获得富硒产物SeW2-3,并研究其对CCl4诱导的小鼠急性肝损伤的保护活性。结果表明:与天然的小麦麸皮多糖相比,小麦麸皮硒化多糖SeW2-3具有更强的保肝活性;与模型组相比,硒化多糖组小鼠血清中天冬氨酸转氨酶(AST)
期刊
近年来随着我国经济的快速发展,用电需求逐年增加,配电网规模不断扩大,拓扑结构复杂程度也在不断上升,配电网作为面向用户侧供配电重要组成部分,供电可靠性与安全性面临着严峻考验,配电网中由于雷击、树障、断线等原因引起的故障频发,其中以单相接地故障尤为突出,其发生概率高,还常伴随着电弧与过电压,对人身及设备安全造成严重威胁,同时易发展为严重的短路故障。配电网接地故障受过渡电阻、中性点接地方式等因素的影响,
学位
复烤企业是烟草供应链上的关键一环,目前卷烟生产的前段工序已经逐步向复烤加工环节延伸,并且随着复烤行业深入推进高质量发展,这对复烤企业各项资源与工业客户生产需求的匹配度以及在生产过程中的库存管理提出了较高要求。在实际生产中,复烤企业由于在原烟分选阶段所分选出的备料的量具有不确定性,缺乏科学的库存管理方法造成备料库存积压严重,导致备料库常处于高位运行状态,从而使得资源浪费以及库存成本的增加。因此,如何
学位
汽车工业是一个国家国民经济中的重要支柱,也是一个是综合性强、关联度高的产业,汽车产业的发展对相关产业的科技创新和产业发展具有很强的带动作用。随着改革开放的深入、社会经济的发展和人民生活水平的提高,我国已经成为世界第一大汽车生产和消费国。近年来,日益严重的能源危机和环境污染,使新能源汽车成为汽车未来的发展方向。我国在政府的引导和支持下,新能源汽车也迎来了快速发展,并正向高质量发展方向迈进。然而,我国
学位
第二次工业革命带来的电气时代,让社会发生了翻天覆地的变化,电力应用深入居民的日常生活,社会对电能依赖程度不断增长。在云南,各种电压等级以及交直流系统混合运行,使得云南电网成为中国电力系统最复杂的地区之一。同时云南省拥有丰富的水电资源,在大量电解铝企业迁入到滇南部地区后,考虑到电解铝生产每次开机耗时较长,如果当地电网频繁发生安全事故将造成巨大的资源浪费和经济损失。因此对当地开展量化风险评估显得尤为重
学位
原子层沉积(ALD)设备作为制备纳米薄膜材料关键设备,对其进行国产化自主研发有助于加快国内在半导体领域的研究进程。目前的ALD设备在自动化程度上存在缺陷,无法满足半导体产业上的工作环境。本课题借助校企合作平台,对自主研发带有转送系统的Load Lock(送样取样)型ALD设备控制系统展开设计与研究,结合目前先进PLC技术完成控制系统的设计。该系统提高了ALD设备自动化程度以减少人工操作实现高度自动
学位
学位