中文命名实体识别语料库构建与深度学习模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xiaojinzhu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着文本分析需求的增长,命名实体识别(Named Entity recognition,NER)研究蓬勃发展,命名实体识别任务的效果有了很大的提升,同时命名实体识别处理的文本类型和领域也越来越丰富。在中文命名实体识别领域,仍存在着一些待解决的问题。命名实体识别系统的自适应性不强,将训练好的模型应用到不同领域、不同类型的文本上会产生很大的效果落差;命名实体识别效果过分依赖研究者对特征的选择和设计,对新类型、新领域文本的命名实体识别研究又将花费巨大的精力进行特征工程(Feature Engineering);对于一些较长跨度的实体,如“长机构名”的实体识别困难。  在基于统计学习的命名实体识别方法中,需要从训练语料和识别模型两个方面去考虑处理这些问题。在训练语料构建方面,需要考虑如何有效地构建实体识别语料库,既能满足新的文本领域的训练质量和规模需求,同时要尽量减少人力付出,基于此本文探索了众包构建语料库的方法。在实体识别模型方面,目前深度学习的出现为实体识别研究带来了新思路。本论文探索如何将深度学习应用到命名实体识别任务中,利用深度学习自动学习复杂特征的优势,避免命名实体识别研究者陷入无尽的特征工程中。本论文的主要工作和创新成果如下:  (1)研究众包语料库构建方法,提出一种基于用户标注历史的众包任务分配算法与众包结果选择算法。随着命名实体识别在不同领域、不同类型文本上应用需求的增多,构建适量的命名实体语料库成为提高新领域、新类型文本命名实体识别效果的有效方法。本文根据命名实体任务标注的特点,提出了衡量用户标注质量的用户标注权威度和用户标注遗漏率。结合这两个指标,本文提出了期望阈值众包任务分配算法和Biased LCA(Latent Credibility Analysis)众包结果选择算法。实验结果表明,在相同标注人力成本的情况下,文本提出的众包语料库构建方法可以得到更高质量的命名实体语料库。  (2)提出一种基于层叠双向LSTM(Long Short Term Memory)模型的命名实体识别方法。LSTM是循环神经网络(recurrent neural network,RNN)的一个变体,克服了RNN对长距离信息梯度消失与梯度爆炸的问题,能够很好地捕捉长距离特征信息。与此同时,LSTM同样能够自动学习复杂特征,使命名实体识别研究者避免了无尽的特征工程。该模型具有很好的自适应性。实验结果表明层叠双向LSTM的命名实体识别模型可以利用很少的特征达到不错的效果,超过了同等条件下条件随机场(Conditional random fields,CRF)模型的识别效果。
其他文献
区域人流量预测不仅可以解决交通拥堵问题也可以避免类似上海外滩踩踏事件的发生,在人们的日常生活中具有非常重要的应用价值。随着各种定位技术及基于位置服务产品的发展,产生
云计算(Cloud Computing)是网格计算、分布式计算、并行计算等传统计算机和网络技术发展融合的产物。作为一种新兴的计算模式,云计算以其高度的可扩展性、灵活的按需付费模式
TCAM由于其稳定又高效的查找性能,近年来被广泛应用于高速网络下的数据包分类系统中。TCAM中的规则表是动态的,当网络拓扑变化或者防火墙策略变更时,规则会被插入或者删除。插入
随着互联网的高速发展,数据急剧增长,低时延高吞吐的分布式流处理引擎应运而生。对于分布式流处理引擎而言,能应对服务器宕机、数据波动变化大、操作复杂度变化等情况显得格外重
进入21世纪,全球范围内的数据量呈爆炸性增长。分析调研机构IDC发布的报告显示,全球的数据总量每两年就会增加一倍。到2015年,数据量预计将会达到8000EB。  海量数据中,流数据
本文的主要工作是完成一套激光谐振腔损耗测试系统中系统测控软件部分的研制工作。该系统是一套集光机电一体化的多机构复杂系统,要同时实现自动聚焦、图像位置识别、损耗自
随着多媒体以及网络技术的发展,越来越多的企业使用网络会商系统。会商系统通过传输声音、视频、图像等信息,实现跨域沟通,能够为企业、公司提高办公效率、节约行政成本。但
标识密码技术是实现网络关键部分认证、授权机制,保障网络可控性,构建可信网络的重要手段。然而由于需要依靠第三方为用户生成私钥,使得标识密码技术存在与生俱来的密钥托管问题
该文详细介绍了系统的设计和实现过程.第一章对作者的问题进行了描述,并简要介绍了超大规模集成电路计算机辅助设计的概况,以及与作者的问题相关的子图同构问题和电路匹配问
随着移动设备的普及和多媒体技术的迅猛发展,人们日常生活中触手可及的多媒体数据呈现爆炸性增长。同时,新兴的交互式互联网技术的发展,使得这些数据有了一个整合的平台,从而形成