论文部分内容阅读
中文不同于英语等语言,中文文本是连续书写的,并没有空格这样的词语分隔符。由于词语语义比较明确,在进一步分析处理之前,计算机需要对中文文本进行分词。中文分词是中文自然语言处理的基础任务之一,也是很多上层任务的基础,中文分词系统的性能会极大地影响到上层任务的表现,在自动中文自然语言处理中有着非常重要的地位。经过二十多年的研究,几个大型的中文分词人工标注数据集被建立了起来,中文分词算法也不断改进,从传统基于特征的分词模型到现在基于神经网络深度学习的模型,分词系统在人工标注测试数据上已经取得了高达0.95以上的F1值。然而,由于人工标注的数据主要集中在新闻语料上,而实际处理的文本种类繁多,比如科学文献、小说、微博。研究人员发现在人工标注新闻语料上训练的分词模型在其他领域上分词性能会出现非常大的下滑。这个问题被称为领域迁移问题,指的是模型的训练数据与测试数据不一致的情况。本文对于基于神经网络的中文分词及其领域迁移问题做了深入研究。主要工作和贡献如下:(1)对于基于神经网络的中文分词,提出了结合卷积神经网络和循环神经网络的分词模型。模型引入了多卷积核的卷积神经网络,用以抽取句子局部的隐多粒度信息。同时,还将循环网络堆叠在卷积网络上,使得网络能够获取长距离的上下文信息。最后加入了 k-max池化以减少模型复杂度,在多个公开数据集上,这个联合深度网络取得了相较之前工作更好的分词性能。(2)对于中文分词的半监督领域迁移任务,分析研究了中文分词不同领域文本之间的差别,并针对地提出了三种基于字符级语言模型的半监督领域迁移策略。具体来说,在中文分词不同领域文本上统计uni-gram和bi-gram后,本论文发现不同于其他一些任务的领域迁移,中文分词不同领域之间的差别主要体现在字与字之间的组合关系,所以针对性地提出使用字符级的语言模型对这种关系进行建模,三种具体的领域迁移策略被提了出来。在实验中,本论文在公开数据集上与之前的中文分词半监督领域迁移方法进行了对比,在仅使用未标注数据的情况下,本论文的方法取得了和之前基于词典的方法相近的性能。(3)对于中文分词的全监督领域迁移任务,提出了不同于传统正则约束的,基于神经网络的动态正则化策略。具体来说,本论文使用源领域训练的模型对目标领域模型的训练进行约束,这种正则约束会根据不同训练样本在源领域模型的概率分布对目标领域模型进行不同强度的控制,所以是一种动态的正则化方法。在实验中,本论文在公开数据集上,相较之前中文分词全监督领域方法,取得了更好的表现,也能使用更少的数据取得和之前模型相近的性能。