基于窥视孔连接的BILSTM及CRF算法对复杂文本序列标注处理

来源 :北京交通大学 | 被引量 : 7次 | 上传用户：yang980060

【摘要】

：

近几年,深度学习不论是在学术界还是工业界,都取得了巨大的进展。利用深度学习技巧处理自然语言任务也得到了飞速的发展。中文分词、词性标注(Part-of-speech tagging,POS)以

【作者】

：

张凌瑞

【出处】

：

北京交通大学

【发表日期】

：

2018年01期

【关键词】

：

分词词性标注命名实体识别双向长短期记忆网络随机向量场批归一化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年,深度学习不论是在学术界还是工业界,都取得了巨大的进展。利用深度学习技巧处理自然语言任务也得到了飞速的发展。中文分词、词性标注(Part-of-speech tagging,POS)以及命名实体识别(Named entity recognition,NER)作为句法语义分析的基础,是自然语言处理(Natural language processing,NLP)的一个重要分支任务。在当前的文本信息提取中,基于机器学习的特征挖掘算法难以做到穷举所有特征,这往往取决于该领域专家的水平深度,因此其准确率受限。在处理分词、词性标注和命名实体识别任务中,对生僻及有歧义的词语仍然难以识别,对句子较长的情况处理仍不乐观,对语法出现错误的句子也很难判断正确。分词、词性标注及命名实体识别都属于序列到序列(seq2seq)问题,因此在处理方法上非常类似。随着深度学习在seq2seq问题处理上的发展,近年来,较为流行的处理算法是以双向长短期记忆网络(Bidirectional long and short-term memory network,BILSTM)加随机向量场(Random vector field,CRF)算法的组合模型。此方法给seq2seq问题处理提供了一个优良的作业框架。但在处理复杂命名实体识别以及长句词性标注上,仍然非常困难。基于此,本文提出了一种基于窥视孔连接(Peephole)的双向长短期记忆网络后接随机向量场的算法,结合RNN的批归一化(Batch Normalization)以及Dropout处理手段对超长句、不规则语法以及复杂NER识别进行处理。将算法实现并应用至四川省公安厅简要案情分析模块,对公安办案流程提供了优质的解决方案。本文介绍了该工程的具体细节,采用TensorFlow深度学习框架完成了以下几个方面的工作:(1)对文本分析将普通字、词表示的高纬度稀疏矩阵转化为字、词的嵌入矩阵,将嵌入融合到神经网络的前面部分,并让神经网络自己学习嵌入矩阵的表示,省去嵌入矩阵预训练的步骤。(2)搭建基于窥视孔连接的双向长短期记忆网络作为神经网络的隐藏层,将长期记忆信息添加至记忆决策,增加长期信息的决策性。从而使在不规则语法的句子中,能够很好的分析文字含义。(3)搭建随机向量场算法至神经网络输出层,弥补神经网络无法从统计角度去全局考虑生成序列的概率特性。(4)介绍了前三个算法模块的结合,并采用多语料的数据增强策略对特定领域语料进行处理。(5)四川省公安厅辅助办案系统简要案情分析模块相关任务,并介绍了如何且为什么将该算法运用到此任务。(6)介绍了工程环境的搭建、配置及模型部署和上线过程。最终,该算法在基于人民日报2014年语料集上测试的分词准确率达到97%,词性标注准确率达到99%,命名实体识别在四川公安厅提供的简要案情文本中,能准确的识别出案发地点、涉案人物、作案时间,并能排除其它时间干扰、其它地址干扰。

其他文献

阵发性运动源性舞蹈手足徐动症

PKC为一种离子通道病 ,多呈常染色体显性遗传 ,表现形式多样 ,可见突然、简短、非意志性异常运动 ,抗癫治疗有效。随着年龄增长 ,症状逐渐减轻 PKC is an ion channel dis

期刊

运动障碍离子通道癫癎舞蹈手足徐动

感冒治疗中不合理用药的分析

<正>感冒是上呼吸道最常见的感染性疾病,分普通性感冒和病毒性感冒二种类型。了解感冒特性,明确诊断,合理用药是降低感冒病毒的传播,减少感冒患者的痛若。但近几年来由于临床

期刊

感冒不合理用药分析

妇科腹腔镜手术人工气腹及头低位对患者眼内压的影响

目的探讨腹腔镜手术人工气腹及头低位对患者眼内压的影响。方法 16例妇科腹腔镜手术患者使用Tono-pen笔式眼压计分别于全麻后5 min(T0)、气腹后5 min(T1)、气腹后15 min(T2)

期刊

腹腔镜检查眼内压气腹人工

康艾注射液治疗原发性肝癌的疗效观察

<正>原发性肝癌是最常见的消化系统恶性肿瘤之一,严重威胁人民群众的生命及健康。男性发病率高于女性,全世界每年新发肝癌患者约六十多万,居恶性肿瘤的第五位,我国新发肝癌人

期刊

原发性肝癌康艾注射液

基层疾控机构食品安全事故调查处置中的几点注意事项

结合工作实践体会,总结基层食品安全事故中接报、现场流调、现场卫生学调查、现场检验工作、资料整理分析应注意的问题,提出在基层疾控机构处理食品安全事故的基本工作制度、

期刊

食品安全调查处置注意事项

老年高血压患者的健康相关生存质量状况及相关因素调查研究

目的调查老年高血压患者健康相关生存质量状况及相关危险因素。方法 2011年11月至2011年12月,我们对我院住院的300例老年高血压患者进行了调查,同时对危险因素进行了多因素分

期刊

老年人高血压生存质量危险因素

独立院校学生创业困难的因素分析

随着社会就业压力的不断加大,社会、政府、高校开始推行学生自主创业工作。但是在实际的操作工作中却困难重重,学生创业失败的案例常常发生,究其原因是多方面的,本文根据笔者

期刊

独立院校创业困难因素

基于虚拟现实的汽车设计与展示系统研究与开发

介绍了虚拟现实技术的基本知识以及虚拟现实软件EON Studio的基本工作原理及其脚本节点的应用,以某汽车模型为应用对象,建立了1个基于EON Studio的汽车设计系统,详细叙述了整

期刊

EON虚拟现实汽车设计Script

行波型超声电机的稳定性分析

在行波型超声波电机数学模型的基础上,研究了其稳定性。首先利用李雅普诺夫稳定性判据对超声电机驱动区间和制动区间的3种情况进行了分析,在研究数学模型基础上完成了超声电

期刊

超声电机数学模型李雅普诺夫速度平衡方程超声电机区间特性

六味地黄丸质量检验结果分析

目的:分析药品六味地黄丸内在质量及规格包装、厂家等外部影响因素情况。方法:根据《中国药典》2010年版一部等法定标准对市售68批六味地黄丸进行检验及结果数据系统分析。结

期刊

六味地黄丸质量检验结果分析

基于窥视孔连接的BILSTM及CRF算法对复杂文本序列标注处理

与本文相关的学术论文