基于Bi-LSTM-CRF模型的蒙古文形态素切分方法

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户：regicide09

【摘要】

：

蒙古文形态素切分是蒙古文自然语言处理的核心任务之一.该文针对传统蒙古文的构词特点,提出了一种新的蒙古文形态素标注方法,在蒙古文天然的词边界划分基础上,进一步将形态素进行划分.相比传统的蒙古文词切分方法,本文重点研究构词成分的形态素单元切分,提出的方法在充分学习蒙古文词和字知识的同时,通过自动学习蒙古语构词的形态素成分上的语言学知识,能够更加有效地捕捉形态素单元上的语义信息.该文使用新标注方法并基于

【作者】

：

吴都徐金安陈钰枫张颖陈圣爱张玉洁

【机构】

：

北京交通大学计算机与信息技术学院,北京100044

【出处】

：

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会

【发表日期】

：

2019年8期

【关键词】

：

蒙古文形态素切分 Bi-LSTM-CRF模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于Transformer的AMR-to-Text生成

抽象语义表示到文本(AMR-to-text)生成的任务是给定AMR图,生成相同意义表示的文本.可以把此任务当成一个从源端AMR图到目标端句子的翻译任务.然而,传统的序列到序列(seq2seq,简称S2S)的方法,使用循环递归网络进行编码,并不能很好的解决长短期依赖的问题.当前最好的性能是图到序列(graph2seq,简称G2S)的模型,使用了图模型直接对AMR图结构进行编码,但对于非直接相连的节点

会议

抽象语义表示文本生成序列到序列模型字节对编码共享词表

基于形态学信息的中文词嵌入方法:一种双通道视角

词嵌入是自然语言处理领域的一个基础而又十分重要的课题.对于具有象形表意特性的汉语来说,如何捕捉隐藏于文字形态中的语义信息,同时使得方法具有良好的可解释性,成为一个亟待解决的问题.在该文中,详细阐释了汉语的形态学信息在传达语义和增强汉语词嵌入上的重要性.然后,提出了一个新颖的双通道词嵌入模型来实现汉字笔画序列信息和字形空间信息的联合学习,进而丰富汉语词的表示.通过两个经典词嵌入测试任务的评估,我们的

会议

汉语词嵌入笔画序列字形空间

基于抽象语义表示的汉语构式的标注与分析

构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难.因此,需要研究构式的内部结构标注与语料构建.由于构式的语义结构与句法结构有较大差异,使用中文抽象语义表示(CAMR)来直接标注构式的语义结构.目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库共1057条构式进行人工标注并统计后,发现CAMR可以表示出61.2％的

会议

汉语构式自动标注抽象语义表示

细颗粒度汽车评论语料库的构建和分析

产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性“三要素”,影响自动分析的应用场景.对此,本文构建了细颗粒度情感语料库,共包含9343句汽车评论短文本,不仅人工标注了“三要素”的具体词语,而且将其对应到产品和属性的知识本体树上.此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签.语料统计表明,对

会议

产品评论文本情感分析细颗粒度语料库

基于关系对齐的汉语虚词抽象语义表示与分析

虚词具有丰富的语法意义,对句子理解起着不可或缺的作用.虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用.为了表示虚词的句法语义信息,首先在抽象语义表示(AMR)这种基于概念图的语义表示方法的基础上,增加了词语和概念关系的对齐信息,使得虚词对应于概念节点或节点之间的关系弧上.其次,选取了语言规范的人教版小学语文课本8587句作为语料,进行AMR的标注.然后,针对语料中24801个虚词

会议

汉语虚词抽象语义表示关系对齐

结合特殊领域实体识别的远监督话语领域分类

近年来,基于注意力(attention)机制的循环神经网络在文本分类中表现出显著的性能.然而,当训练集数据有限时,测试集数据中许多领域实体指称项在训练集中处于低频,甚至从未出现,如,中文话语领域分类任务.本文提出结合特殊领域实体识别的远监督话语分类模型.首先,通过远监督(distant supervision)的方式获取数据集中的领域知识,显著地减少了人工操作;其次,利用特殊领域实体识别和本地构建

会议

中文话语领域分类远监督学习实体识别

基于ECPA神经网络的情绪原因识别方法

情绪原因识别是文本情绪分析领域中一个前沿的研究方向.传统情绪原因识别方法需要进行制定规则、特征抽取等过程,而本文从情绪原因的语言特点出发,结合Bi-LSTM模型和注意力机制,提出一种基于情绪上下文位置注意力神经网络的情绪原因识别方法(ECPA).该方法考虑了情绪词和情绪类别的情绪信息,学习了Bi-LSTM模型建模后的上下文语义信息,引入了基于位置信息的注意力机制模型,进而构建情绪原因识别模型.实验

会议

情绪原因识别Bi-LSTM模型注意力机制情绪信息位置信息

结合规则蒸馏的情感原因发现方法

现有的基于深度学习的情感原因发现方法往往缺乏对文本子句之间关系的建模,且存在学习过程不易控制、可解释性差和对高质量标注数据依赖的不足.针对以上问题,本文提出了一种结合规则蒸馏的情感原因发现方法.该方法使用层次结构的双向门限循环单元(Bi-GRU)捕获词级的序列特征和子句之间的潜层语义关系,并应用注意力机制学习子句与情感关键词之间的相互联系,同时结合相对位置信息和残差结构得到子句的最终表示.在此基础

会议

情感原因发现注意力机制门限循环单元知识蒸馏

面向中朝跨语言文本分类的双语主题词嵌入模型的研究

日渐丰富的少数民族跨语言文字信息资源,对其进行有效的管理、挖掘与利用有着重要的应用价值.为了解决语言间的差异,解决语言鸿沟问题,针对中朝跨语言文本分类任务,提出了双语主题词嵌入模型.该模型将主题模型与双语词嵌入模型相结合,解决了一词多义引起的歧义性对跨语言文本分类的精度带来的影响.首先,在大规模包含词对齐信息的平行句对中训练双语单词的词嵌入表示;其次,对双语分类语料进行主题模型的建模,并获得双语单

会议

跨语言文本分类双语词嵌入模型主题模型

基于增强多注意力的LSTM网络的方面级情感分类

为了挖掘用户细粒度的情感表达,方面级情感分析引起了研究者们的关注.现有的研究方法通常将方面判别任务与情感分析任务分离,且在给定方面的基础上进行情感分析.然而现实的评论数据大多没有标注方面标签,因此,对于给定的评论文本,需要同时判断方面类别及其情感极性.本文利用多个分类器同时对评论的方面及其情感进行预测,使用两层长短期记忆网络对评论的上下文信息和方面信息进行编码,并利用注意力机制对评论中相关方面的情

会议

方面级情感分析长短期记忆网络多注意力机制

基于Bi-LSTM-CRF模型的蒙古文形态素切分方法

与本文相关的学术论文