论文部分内容阅读
目前流行的中文分词方法是把分词当做序列标注问题,同样,标点符号预测也可以当作序列标注来处理。一些传统机器学习模型在序列标注问题上取得了不错的效果,如:隐马尔可夫模型,条件随机场模型,支持矢量机模型,最大熵模型等。除此之外,深度学习的方法在序列标注任务以及其他自然语言处理任务中取得了比传统机器学习方法更好的效果。其中的RNN(Recurrent Neural Network,RNN)被广泛的应用于NLP(Natural Language Process,NLP)领域中的词性标注、机器翻译、实体命名等。因为LSTM(Long Short-term Memory,BLSTM)网络可以有效克服原始RNN中梯度消失的问题,因此在诸多NLP任务中得到了广泛的应用。关于LSTM单元组成的网络,原始的LSTM网络是单向结构,但是单向的LSTM网络只能检测到序列单侧的信息,为了克服这个缺点,双向LSTM网络出现了,同时为了能得到更加抽象的语义信息,有学者把多层的LSTM网络叠加起来,形成了多层LSTM的网络结构。现有的多层双向BLSTM网络结构是由正反两个方向的多层单向LSTM网络组成的,最后将两个网络的输出进行一次信息融合,融合之后的输出便包含了文本序列两个方向的信息。本文针对这种网络结构进行了研究,提出一种改进型的多层双向长短时记忆(Bidirectional Long Short-term Memory,BLSTM)网络,此网络每层的BLSTM都会进行一次信息融合,输出信息包含更丰富的上下文信息。同时找到一种联合任务方法可以并行执行中文分词和标点符号预测两项序列标注任务。对比原先的先执行中文分词再进行标点符号预测的级联方案,文本所述的方法可以极大的减少系统复杂度。此种方法可以用来处理不规范的社交网络数据,也可以应用在语音识别的后期处理中,并且此种处理方法和思想可以广泛的扩展应用在其他的NLP序列标注任务中。