论文部分内容阅读
文本分类一直是自然语言处理方向中的研究热点。近年来,由于计算能力的快速提升,基于深度学习的文本建模方法取得了成功。但是基于深度学习的文本建模方法需要大量标记数据支撑模型训练。这对其应用场景造成了一定的限制。具体地,现实场景中可能存在两种数据缺乏问题:1)标签缺乏。一些问题虽然有相关数据,但是没有数据对应的标签;2)数据缺乏。一些问题的数据只包含可能的标签,但是没有标签对应的训练数据。本文从数据生成角度,对这两种场景下的文本分类任务进行了研究探索。本文的主要工作如下:对于标签缺乏问题,本文工作集中于跨领域文本情感分类问题。具体地,现有两个领域的数据,一个领域存在大量有标记数据,称为源领域;另一个领域只有无标记数据,称为目标领域。本文解决在目标领域进行文本情感分类的问题。目前已有一些模型迁移方法可以把源领域训练的深度模型迁移到目标领域上。然而,现有的深度学习迁移框架主要着眼于使特征提取器输出领域无关的特征向量,而忽略了无标记数据隐含的标签信息。因此,本文提出了一种新的基于对抗学习与互学习方法的深度学习模型框架DAML。在目标领域,DAML通过互学习方法为无标记数据生成伪标签,使多个模型进行信息互补,从而最大化利用无标记数据。实验表明,DAML框架的效果超过了目前所有的其他基准方法,证明了生成方法解决标签缺乏问题的能力。相关工作已发表于AAAI-2020会议。对于数据缺乏问题,本文工作集中于零次文本分类问题。在零次文本分类问题中,训练数据只能覆盖一部分类别,而另一部分类别没有对应的训练数据。本文解决这种数据缺乏场景下的文本分类问题。由于需要预测的类别没有训练数据,且类别描述本身所带有的信息极少,因此现有的模型大多是基于词语的规则模型,模型效果依赖于相关专家的规则设计。本文为了解决这一问题,提出了一种基于对抗学习与注意力机制的数据生成方法ADG4ZS。此方法通过对真实数据中每个单词进行不同程度的迁移,生成未见标签的数据,这些数据之后用于深度模型的训练。实验表明,此方法效果超过了目前效果最好的其他模型,证明了生成方法解决数据缺乏问题的能力。综上所述,本文从数据生成角度,针对深度学习模型难以发挥作用的数据缺乏场景进行了研究探索。本文使用标签生成与数据生成方法增加了数据的利用效率,使深度模型在这些场景发挥作用。多个公开数据集上的实验结果证明了本文方法的有效性。