论文部分内容阅读
中文分词是指把一句汉语按照一定规范切分为一个个单独的词,是中文自然语言处理(Natural Language Processing,NLP)的一个基础任务,也是信息检索、知识图谱以及机器翻译等其它NLP任务的关键底层任务。近年来,随着深度学习的发展,基于神经网络的分词方法在自然语言处理领域得到广泛应用。不同于传统的基于规则和统计的分词方法,神经网络方法利用大规模标注数据训练得到泛化能力强的模型。然而中文分词任务具有极强的领域适应性,通常在一个领域训练得到的分词模型应用于其它领域时性能会有所下降。而目前公开的中文分词数据集多为新闻领域,因此如何利用资源丰富的领域数据去提高资源匮乏领域的分词性能就变得尤为重要。本文主要研究中文分词的领域适应性问题,当前中文分词的领域自适应研究主要存在两方面挑战:一方面,相同的单词在不同领域内的上下文和含义都有可能不同,导致歧义切分问题;另一方面,不同领域所包含的领域内词汇不尽相同,导致无法有效识别未登录词。针对以上挑战,本文提出基于样本迁移学习的中文分词领域自适应方法。该方法的主要思想是通过分析源领域和目标领域数据的特点,选择小规模有价值的样本进行标注,然后利用标注后的样本来帮助训练分词模型,从而提高模型的领域自适应能力。本文的主要贡献如下:(1)针对当前主流的神经网络中文分词系统BiLSTM-CRF,提出了融合注意力机制和融合Bert语言模型两种改进方案,分别为Att-BiLSTM-CRF框架和Bert-BiLSTM-CRF框架。其中注意力机制增加了历史信息,Bert语言模型融入了更多的语义特征;(2)针对中文分词的领域适应性问题,通过分析源领域数据和目标领域数据的特点,提出了基于n元字向量的相似性计算方法,借助该方法可以选出与源领域结构相似且包含未登录词的目标领域样本;(3)针对中文分词的领域适应性问题,提出了基于样本迁移的中文分词领域自适应方法。在样本迁移过程时,本文提出基于相似性和不确定性的采样策略来选择样本,并对模型的标注结果进行修正,避免了负迁移现象。本文研究是利用样本迁移改善领域适应性问题的进一步尝试。实验结果表明,本文方法能够有效地增强模型的领域自适应能力,提高中文分词精度。