论文部分内容阅读
近几年,深度学习不论是在学术界还是工业界,都取得了巨大的进展。利用深度学习技巧处理自然语言任务也得到了飞速的发展。中文分词、词性标注(Part-of-speech tagging,POS)以及命名实体识别(Named entity recognition,NER)作为句法语义分析的基础,是自然语言处理(Natural language processing,NLP)的一个重要分支任务。在当前的文本信息提取中,基于机器学习的特征挖掘算法难以做到穷举所有特征,这往往取决于该领域专家的水平深度,因此其准确率受限。在处理分词、词性标注和命名实体识别任务中,对生僻及有歧义的词语仍然难以识别,对句子较长的情况处理仍不乐观,对语法出现错误的句子也很难判断正确。分词、词性标注及命名实体识别都属于序列到序列(seq2seq)问题,因此在处理方法上非常类似。随着深度学习在seq2seq问题处理上的发展,近年来,较为流行的处理算法是以双向长短期记忆网络(Bidirectional long and short-term memory network,BILSTM)加随机向量场(Random vector field,CRF)算法的组合模型。此方法给seq2seq问题处理提供了一个优良的作业框架。但在处理复杂命名实体识别以及长句词性标注上,仍然非常困难。基于此,本文提出了一种基于窥视孔连接(Peephole)的双向长短期记忆网络后接随机向量场的算法,结合RNN的批归一化(Batch Normalization)以及Dropout处理手段对超长句、不规则语法以及复杂NER识别进行处理。将算法实现并应用至四川省公安厅简要案情分析模块,对公安办案流程提供了优质的解决方案。本文介绍了该工程的具体细节,采用TensorFlow深度学习框架完成了以下几个方面的工作:(1)对文本分析将普通字、词表示的高纬度稀疏矩阵转化为字、词的嵌入矩阵,将嵌入融合到神经网络的前面部分,并让神经网络自己学习嵌入矩阵的表示,省去嵌入矩阵预训练的步骤。(2)搭建基于窥视孔连接的双向长短期记忆网络作为神经网络的隐藏层,将长期记忆信息添加至记忆决策,增加长期信息的决策性。从而使在不规则语法的句子中,能够很好的分析文字含义。(3)搭建随机向量场算法至神经网络输出层,弥补神经网络无法从统计角度去全局考虑生成序列的概率特性。(4)介绍了前三个算法模块的结合,并采用多语料的数据增强策略对特定领域语料进行处理。(5)四川省公安厅辅助办案系统简要案情分析模块相关任务,并介绍了如何且为什么将该算法运用到此任务。(6)介绍了工程环境的搭建、配置及模型部署和上线过程。最终,该算法在基于人民日报2014年语料集上测试的分词准确率达到97%,词性标注准确率达到99%,命名实体识别在四川公安厅提供的简要案情文本中,能准确的识别出案发地点、涉案人物、作案时间,并能排除其它时间干扰、其它地址干扰。