论文部分内容阅读
中文分词(Chinese Word Segmentation,CWS)作为自然语言处理领域的基础任务和重点研究课题,受到越来越多的关注,其分词效果的好坏直接影响着词性标注、命名体识别和语义分析等任务的进行。因此,中文分词技术的研究具有重要的理论和现实意义。目前有很多关于中文分词技术的算法,最为常见的就是使用序列标注方法进行中文分词,但是这种方法受窗口大小的影响很大。本文采用基于门控组合神经网络(Gated Combination Neural Network,GCNN)和门控循环单元(Gated Recurrent Unit,GRU)神经网络进行中文分词算法的研究。主要研究内容有:1.总结中文分词技术的发展现状,介绍了基于长短时记忆(Long Short-Term Memory,LSTM)神经网络和基于门控循环神经网络(Gated Recursive Neural Network,GRNN)的中文分词方法。这两种方法都是基于序列标注的中文分词方法,把中文分词过程转换为学习词位信息的过程。2.分析LSTM和GRNN网络的不足,提出改进的GCNN-GRU神经网络的中文分词方法。该方法无需再对单个字进行标注,而是直接评估不同切分句子的相对可能性,然后搜索最高得分的分词结果。首先,通过GCNN网络从字嵌入中获得词向量,避免忽略不常见词和未登录词,同时计算出词得分;然后,把词向量输入到GRU神经网络中获得上下文信息,其分词结果的得分就是词得分和句子得分之和;最后,通过beam search算法进行解码,获得最高得分的句子。3.在相同实验环境下,本文分别对GCNN-GRU、LSTM和GRNN网络分词算法进行实验验证。实验结果表明,在数据集PKU上,本文改进的中文分词算法的分词精度(F值)分别比LSTM、GRNN分别提高了0.7%和0.8%;在数据集MSR上,分别提高了 1.1%和1.2%。4.本文使用了Dropout方法避免神经网络过拟合以及使用word2vec对字嵌入进行预训练,获得了更好的分词效果。经过预训练和Dropout方法处理的GCNN-GRU网络比没有经过处理的GCNN-GRU获得的分词精度分别提高了 0.4%和 0.1%。