基于多任务学习的中文命名实体识别研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:benxiaohai10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,命名实体识别任务一直是自然语言处理领域一项非常基础而极具挑战的任务。命名实体识别的目标是从文本序列中识别实体,并将实体分类到预定义的类别当中,如:人(Person)、组织(Organization)、地点(Location)等。命名实体识别是许多高级自然语言处理任务的基础。关系抽取、问答系统、自动摘要、知识库构建等都离不开对命名实体的研究。因此研究命名实体识别具有非常现实的意义,本文主要研究工作如下:基于笔画的中文字嵌入向量本文在word2vec模型上进行改进,通过挖掘更深层次词内部的语义和形态学特征来改进中文词嵌入向量模型。受英文子词模型启发,本文将中文汉字划分成更细粒度的笔画序列,采用n-gram和LSTM捕获汉字内部结构特征,引入汉字书写的形态学特征,提高模型对表意文字的表达能力。本文在中文维基百科和中文电子病历数据集上测试,试验结果表明模型训练的字嵌入向量要优于word2vec、GloVe、CWE等主流模型的结果。基于多任务学习的中文命名实体识别目前基于多任务学习的命名实体识别仍有待研究,本文设计了一种分层的多任务学习模型,模型将中文分词作为辅助任务进一步提升实体预测精度。本文进一步将语言模型的目标函数作为辅助任务加入命名实体识别训练过程:为每个输入增加两个输出层,预测其前一个字符和后一个字符。该方法在不需要增加训练样本的情况下,辅助模型学习到更多语义特征。此外,本文针对中文实体边界预测困难的问题,在命名实体识别模型中引入注意力机制,将模型注意力集中到实体及其周围区域,使得模型更加关注序列的局部特征,进一步提升了命名实体识别模型的预测精度。最后本文结合以上方法设计了统一中文命名实体识别框架。在中文医疗电子病历和中社交媒体数据集上进行测试,验证了以上方法的有效性。该模型在中文医疗电子病历数据集(CCKS-NER 2017)上的严格匹配F1达到了90.65%,较基准模型提高1.70%,这是目前单模型取得的最好结果。
其他文献
液压系统的同步控制在重型、大型构件或设备的生产、安装和搬运等场合中的应用是十分广泛的,本文以16000t海上浮托安装平台为对象来进行液压系统同步控制的研究。在该液压系
疲劳失效是重要零部件的常见失效形式之一。表层改性是抗疲劳制造中的关键技术环节,其目的是通过外界能量的转换,在零件表层形成具有一定深度和幅值的残余应力场,从而有效提
无人系统在人类生活中发挥着越来越重要的作用,无人系统上搭载的各类传感器是无人系统获取外界信息的主要途径,如何管理、协调各类传感器是提高无人系统工作效率和鲁棒性的关
随着现代工业的不断发展,高值工业装备的需求量越来越大,通过表面处理延长其疲劳寿命进而达到降低生产成本目的,是所有相关研究者一直以来的研究目标。构件经表面处理后塑性
当前外骨骼助力设备研究蓬勃发展,在解决老年人行动困难、辅助高强度劳动与增强军事单兵作战方面具有广阔运用前景。通常在外骨骼上使用电机直驱或串联弹簧执行器形式对人体
体育赛事作为传播体育文化的重要途径,越来越多的体育赛事通过品牌建设来获得广大公众的关注和认可,更多的公众因关于品牌体育赛事而关注到体育文化。“李广杯”国际传统射箭
图像中的信息有很大一部分蕴含在图像的梯度之中,比如图像的纹理、噪点等等。很多图像的优化问题都与图像的梯度有关,例如尽可能沿着图像较大梯度方向而进行的M-S模型图像分
聚类分析的目标是在没有先验知识的情况下把数据集分成若干个簇,使得簇内的数据之间的相似度较高而不同簇之间的数据相似度较低,比如用户可能并不知道数据集分类的数目或数据
一直以来,语音就是人与人之间日常交流的主要载体。随着现代计算机技术和人工智能技术的快速发展,语音逐渐成为人机交互的重要形式。但是周围环境的噪声一直干扰语音信号,语
随着探测对象日趋复杂,适应于起伏界面、复杂结构的逆时偏移成像算法得到了不断发展,此成像方法可高精度重构无法观测区域的物质形态,然而由于此算法存在计算效率低和低频噪