基于窥视孔连接的BILSTM及CRF算法对复杂文本序列标注处理

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:yang980060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,深度学习不论是在学术界还是工业界,都取得了巨大的进展。利用深度学习技巧处理自然语言任务也得到了飞速的发展。中文分词、词性标注(Part-of-speech tagging,POS)以及命名实体识别(Named entity recognition,NER)作为句法语义分析的基础,是自然语言处理(Natural language processing,NLP)的一个重要分支任务。在当前的文本信息提取中,基于机器学习的特征挖掘算法难以做到穷举所有特征,这往往取决于该领域专家的水平深度,因此其准确率受限。在处理分词、词性标注和命名实体识别任务中,对生僻及有歧义的词语仍然难以识别,对句子较长的情况处理仍不乐观,对语法出现错误的句子也很难判断正确。分词、词性标注及命名实体识别都属于序列到序列(seq2seq)问题,因此在处理方法上非常类似。随着深度学习在seq2seq问题处理上的发展,近年来,较为流行的处理算法是以双向长短期记忆网络(Bidirectional long and short-term memory network,BILSTM)加随机向量场(Random vector field,CRF)算法的组合模型。此方法给seq2seq问题处理提供了一个优良的作业框架。但在处理复杂命名实体识别以及长句词性标注上,仍然非常困难。基于此,本文提出了一种基于窥视孔连接(Peephole)的双向长短期记忆网络后接随机向量场的算法,结合RNN的批归一化(Batch Normalization)以及Dropout处理手段对超长句、不规则语法以及复杂NER识别进行处理。将算法实现并应用至四川省公安厅简要案情分析模块,对公安办案流程提供了优质的解决方案。本文介绍了该工程的具体细节,采用TensorFlow深度学习框架完成了以下几个方面的工作:(1)对文本分析将普通字、词表示的高纬度稀疏矩阵转化为字、词的嵌入矩阵,将嵌入融合到神经网络的前面部分,并让神经网络自己学习嵌入矩阵的表示,省去嵌入矩阵预训练的步骤。(2)搭建基于窥视孔连接的双向长短期记忆网络作为神经网络的隐藏层,将长期记忆信息添加至记忆决策,增加长期信息的决策性。从而使在不规则语法的句子中,能够很好的分析文字含义。(3)搭建随机向量场算法至神经网络输出层,弥补神经网络无法从统计角度去全局考虑生成序列的概率特性。(4)介绍了前三个算法模块的结合,并采用多语料的数据增强策略对特定领域语料进行处理。(5)四川省公安厅辅助办案系统简要案情分析模块相关任务,并介绍了如何且为什么将该算法运用到此任务。(6)介绍了工程环境的搭建、配置及模型部署和上线过程。最终,该算法在基于人民日报2014年语料集上测试的分词准确率达到97%,词性标注准确率达到99%,命名实体识别在四川公安厅提供的简要案情文本中,能准确的识别出案发地点、涉案人物、作案时间,并能排除其它时间干扰、其它地址干扰。
其他文献
PKC为一种离子通道病 ,多呈常染色体显性遗传 ,表现形式多样 ,可见突然、简短、非意志性异常运动 ,抗癫治疗有效。随着年龄增长 ,症状逐渐减轻 PKC is an ion channel dis
<正>感冒是上呼吸道最常见的感染性疾病,分普通性感冒和病毒性感冒二种类型。了解感冒特性,明确诊断,合理用药是降低感冒病毒的传播,减少感冒患者的痛若。但近几年来由于临床
目的探讨腹腔镜手术人工气腹及头低位对患者眼内压的影响。方法 16例妇科腹腔镜手术患者使用Tono-pen笔式眼压计分别于全麻后5 min(T0)、气腹后5 min(T1)、气腹后15 min(T2)
<正>原发性肝癌是最常见的消化系统恶性肿瘤之一,严重威胁人民群众的生命及健康。男性发病率高于女性,全世界每年新发肝癌患者约六十多万,居恶性肿瘤的第五位,我国新发肝癌人
结合工作实践体会,总结基层食品安全事故中接报、现场流调、现场卫生学调查、现场检验工作、资料整理分析应注意的问题,提出在基层疾控机构处理食品安全事故的基本工作制度、
目的调查老年高血压患者健康相关生存质量状况及相关危险因素。方法 2011年11月至2011年12月,我们对我院住院的300例老年高血压患者进行了调查,同时对危险因素进行了多因素分
随着社会就业压力的不断加大,社会、政府、高校开始推行学生自主创业工作。但是在实际的操作工作中却困难重重,学生创业失败的案例常常发生,究其原因是多方面的,本文根据笔者
介绍了虚拟现实技术的基本知识以及虚拟现实软件EON Studio的基本工作原理及其脚本节点的应用,以某汽车模型为应用对象,建立了1个基于EON Studio的汽车设计系统,详细叙述了整
在行波型超声波电机数学模型的基础上,研究了其稳定性。首先利用李雅普诺夫稳定性判据对超声电机驱动区间和制动区间的3种情况进行了分析,在研究数学模型基础上完成了超声电
目的:分析药品六味地黄丸内在质量及规格包装、厂家等外部影响因素情况。方法:根据《中国药典》2010年版一部等法定标准对市售68批六味地黄丸进行检验及结果数据系统分析。结