基于神经网络和语言模型的中文命名实体识别

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:angelgsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入二十一世纪,互联网上的文本信息呈现爆炸式增长,为了在这种海量信息中解决我们关心的问题,自然语言处理的研究应运而生。自然语言处理是一系列任务的统称,包括但不限于机器翻译、情感分析等。这些高级任务是以一系列基础任务作为支撑的,命名实体识别(NER)就是其中之一。因此解决命名实体识别任务的好坏,直接影响到解决后续任务的质量。命名实体识别指的是对文本中的实体进行识别,例如人名、地名、机构名等实体,将实体识别出来之后,可以交给后续任务进行进一步处理例如实体消歧和实体链接等。发现这些实体并且准确的定位实体的边界就是命名实体识别的任务。命名实体识别任务起源于英文,英文单词与单词之间有空格分割、词汇有前缀和后缀特征,这些共同的特征造成英文命名实体识别任务较为容易。早在几年前,在基准测试集上,英文命名实体识别的精确率和召回率已经达到了百分之九十以上。与之相比,中文的命名实体识别则较为困难,首先中文实体在识别之前,通常需要先进行分词,而分词的效果直接影响到命名实体识别的结果。其次,中文的词一般只由少数几个字符组成,这就造成了中文不像英文一样可以很容易的利用CNN或LSTM提取词的字符特征。因此,中文上的命名实体识别更为困难。本文着重对命名实体识别的关键问题进行分析,在此基础上探讨如何对中文命名实体识别的技术进行改进并提出了新的命名实体识别模型。论文主要包含以下工作:(1)使用word2vec模型在中文Giga-Word语料库上预训练得到词向量和字符向量。(2)提出了一种新的命名实体识别模型。这个模型以预训练的词向量和字向量作为输入。模型采用两个LSTM分别对预训练的词向量和字向量进行处理,并将处理词的LSTM的输出通过高速公路网络层融入到处理字向量的LSTM的计算过程中。通过这种将所有相关的词考虑在内的方式,减少了分词错误带来的影响。(3)将命名实体识别与语言模型联合训练,通过highway-net将获取到的特征转换到不同的语义空间,避免了任务之间的相互干扰,提高NER的结果。实验在多个数据集上进行,结果表明,在不使用其它外部标记数据或额外注释的情况下模型能取得与当前最好结果相当的水平。
其他文献
随着精密加工技术和生长技术的不断进步,现代光学器件朝着精密化和微型化快速发展,微纳光学器件也随之受到人们广泛关注。自Landy等人首次提出超材料近乎完美吸波器(MPA)后,超
精准医疗是目前深度学习在医疗领域中的一项重要应用,它通过深度学习方法对病灶部位进行处理,获取精确的处理结果,进而辅助医生对病人的病情进行诊断和后续治疗。慢性创面是
在光度学系统,根据不同的环境亮度,将人眼视觉状态分为:明视觉、暗视觉和中间视觉。其中明视觉和暗视觉两种环境下的光度测量与计算方法早已成熟,但是中间视觉环境下的相关计
自石墨烯(graphene)开创性工作以来,科研工作者就不断挖掘和研究碳族以外的新型二维材料。其中,以二硫化钼(MoS2)为代表的过渡金属硫系化合物、以六方氮化硼(h-BN)为代表的III-V族
零热膨胀点阵结构被应用在光学制导的防空导弹导引头的光学成像系统的光学镜筒中。经过零热膨胀点阵填充的光学镜筒,可以实现在镜筒轴向的零热膨胀,从而保证光学系统成像精度
高梯度磁选已广泛应用于氧化铁矿、钛铁矿、黑钨矿等弱磁性金属矿的分选富集,及石英、长石等非金属矿的分离提纯,具有分选效率高、能耗低、处理量大等优点。但是,现有高梯度
互联网的快速发展使得信息安全风险成为人类共同面对的严峻问题。数字签名提供了数据完整性、身份认证和不可否认性等安全服务,是确保信息安全的一项关键技术。为满足不同应
本文考虑两种非标准的更新模型,其索赔额分布是重尾的。我们研究当初始资产趋于无穷时,其破产概率的渐近性。第一个模型是具有随机投资回报的非标准更新模型。保险公司将其财
随着行业市场化取向改革的深入,基于零售终端的卷烟消费需求信息数据库初具雏形。如何分析和应用好这部分数据,让大数据为改革注入新动力是十分必要的。应用好卷烟消费需求数
随着我国移动互联网的快速发展,大数据、二维码、社交媒体等互联网创新技术应用大量涌现,互联网思维正加速融入行业之中,企业发展模式逐渐从传统生产要素驱动转变为数据信息