基于深度学习的中文命名实体识别研究

来源 :北京邮电大学 | 被引量 : 14次 | 上传用户:joiner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别任务是在文本中识别并标注命名实体的过程,是自然语言处理任务中一项基础而重要的任务,如在机器翻译、自动问答系统和信息检索等系统中有广泛应用。中文命名实体识别任务存在分词、歧义、词语嵌套和结构形式复杂等难点,一直以来是文本处理问题中的研究热点和难点。实验数据集来自网络公开的新闻文本数据。首先,收集并预处理了数据;然后,使用随机欠采样和过采样的方法,解决了分类数量不均衡的问题。实验使用了BIO格式的标签,识别5类命名实体,并标注了1 1种标签。为提高模型的准确率和灵活性,基于RNN-CRF框架,提出Bi-GRU-Attention模型。GRU的神经单元结构更简洁,降低了网络的复杂性。提出结合注意力的机制,改善了标签无序的问题,并使模型的结构更加灵活。接着设计并实验了这一模型:以传统的LSTM-CRF模型为基础对照实验,对比并优化了本文提出的Bi-GRU-Attention模型。实验数据表明模型比基础模型实验的训练时间缩短,并且识别5类命名实体的F1值提升了0.3%。本文还提出了基于改进的ELMo可移植模型,用于解决少量标注数据问题和适应多种领域的需要。在ELMo模型中,设计了直通结构,解决深层卷积神经网络退化的问题。在ELMo模型移植于命名实体模型过程中,设计了衔接层和输出调整层。衔接层使用映射函数解决了预训练网络和功能网络使用向量长度不一致的问题。输出调整层利用字在词语中的位置信息,解决了输出的词向量和字的标签对应关系。实验结果表明使用改进的ELMo可移植模型以较小的训练代价移植到命名实体识别任务,并比对照实验的F1值提高了1.18%。
其他文献
大连世界金融中心为双塔超限超高层建筑,核心筒尺寸偏小,核心筒高宽比达到19.7,抵御水平荷载作用的能力偏弱。结构设计采用不落地钢框架支撑+混凝土核心筒双重抗侧体系,以弥
在介绍最新技术--虚拟仪器及其开发环境LabVIEW的基础上,分析了LabVIEW调用外部程序代码的途径,并着重实现了将LabVIEW与C语言接口的高级技术-CIN。实践证明,该方法高效、易行,是
低度恶性潜能多房囊性肾肿瘤(mutilocular cystic renal cell neoplasm of low malignant potential,MCRCNLMP)是肾肿瘤中的1个特殊分型,在所有肾肿瘤中不足1%[1];Xp11.2易位
通过概念整合理论分析20世纪人文社会科学中的各种戏剧隐喻理论,可以发现学科理论发明的内在机制:社会科学学者们从舞台戏剧中提取部分要素形成输入空间1,再从研究对象中提取
随着科学技术的发展而产生的新型的变电站运行方式,电网运行的自动化水平的提高,越来越多的变电所所采用综合自动化设计,在常规变电所的无人值班的改造过程中,如何保证改造后
可达性是对基础设施有效配置的衡量标准,校园空间的可达性研究关系到不同人群对于校园空间基础设施的公平使用。利用Depthmap软件,基于空间句法理论中的轴线分析方法,本文对
期刊
盈利是公司的天职,石油公司也不例外。石油公司如何在石油天然气上中下游全产业链获得满意盈利?哪些是应该由总部获得的资本经营利润?哪些是项目公司获得的生产经营利润?伴随油价
【正】 元龙坡墓葬位于南宁市武鸣县马头乡。1985年3月,有群众在元龙坡顶部发现铜盘1件,于10月初送交南宁市文物管理委员会。10月12日,南宁市文物管理委员会会同广西文物工作
《哈姆雷特》作为莎翁戏剧中的精品,凝聚着其复杂的人文主义理想和卓越的戏剧表现技巧,可谓"不属于一个时代而属于所有的世纪"的不朽杰作。按照"文化诗学"的批评思路,通过贯