蒙古文形态分析与应用研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:caomao8000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从自然语言处理的角度来看,蒙古文属于低资源语言,具有形态复杂、词汇量大、外来词多等特点,这给蒙古文信息处理带来巨大挑战。蒙古文形态分析是蒙古文信息处理的关键预处理步骤,通常用于解决蒙古文信息处理任务中语料稀缺和词汇量大的问题。蒙古文形态分析包含蒙古文形态切分和标注两个子任务,其中蒙古文形态切分是将蒙古文单词切分为词干与词缀的形式,形成词素序列,是蒙古文构词的逆过程。蒙古文形态标注是给词素标注对应形态标签,用于描述蒙古文词素的意义。目前,蒙古文形态分析任务存在以下挑战:(1)通用序列标注解码器建模能力不足;(2)兼类词形态切分结果与语境相关;(3)蒙古文形态标注语料不足。本文对蒙古文形态分析任务存在的问题进行了深入研究,提出了针对性解决方案,提升了蒙古文形态学分析性能,并在此基础上将蒙古文形态分析技术应用于蒙古文成分句法分析任务,提升了蒙古文成分句法分析效果。本文主要创新点如下:1.针对序列标注解码器建模能力不足的问题,提出了蒙古文形态切分序列到序列建模方法。在无上下文语境情境下,本文将蒙古文形态切分映射为一个字符级的序列到序列任务,采用“编码器-解码器”神经网络模型,编码器抽取蒙古文形态特征,解码器捕捉词素的语义特征提升形态切分的效果。为了解决曝光偏差和解码效率问题,本文采用真伪映射和限定性Beam搜索策略,提升了蒙古文形态切分的精度和效率。2.针对兼类词形态切分结果与语境相关的问题,提出了蒙古文形态切分词内外特征统一建模方法,在编码阶段引入自注意力网络(SAN)和长短时记忆网络(Bi LSTM)分别提取词内和上下文特征,在解码阶段采用双重注意力机制融合词内外特征。实验结果表明,该建模方法能够有效抽取和融合蒙古文形态特征,获得了更优的兼类词形态切分性能,有效缓解了兼类词过切问题。3.针对蒙古文形态标注语料不足的问题,提出了形态切分特征到形态标注的迁移建模方法,首先利用蒙古文形态切分与蒙古文形态标注两个任务的相关性,构建基于多任务的形态切分特征迁移框架,通过消融实验确定模型的结构,在此基础上采用分阶段微调和区分性微调的方法训练整个网络。实验表明,该建模方法有效克服了语料不足和由切分和标注顺序处理引入的错误扩散问题,有效提升了蒙古文形态标注任务的性能。最后,本文以蒙古文成分句法解析为典型应用案例,提供了可行的应用方案并验证了蒙古文形态知识对下游任务性能提升的有效性。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
命名数据网络(Named Data Networking,NDN)作为一种以内容为中心的新型网络架构,通过有状态的转发机制来完成数据的通信,然而,恶意用户产生大量网络流量造成网络资源被滥用、网络性能降低、正常用户的请求得不到满足,这种攻击被称为兴趣泛洪攻击(Interest Flooding Attack,IFA)。在IFA中,恶意用户产生的网络流量不携带任何源信息,而且由于恶意用户行为的多样性导
学位