论文部分内容阅读
本文的研究课题为跨语言文本分类,第一章首先介绍了该任务的来源、背景与意义,并总结了目前学术界对于该任务的研究现状,尤其是基于跨语言词向量表示的跨语言文本分类分类的研究进展。最后阐述了本文的研究路线与各章主要内容。第二章中本文首先介绍了单语词向量的训练方法,并由单语词向量的训练方法出发,从两方面阐述了本文所使用的基线系统:第一种为基于线性映射的跨语言词向量训练方法,包括从源语言向目标语言的单向映射方法和基于典型关联分析的双向映射方法,第二种为单语词向量的训练方法skip-gram模型的直接推广,我们以这两种方法作为我们的基线系统。第三章中,本文分析了第二章中所述基线系统的不足之处,从两方面对基线系统进行了改进:首先我们基于基线系统中词向量的训练和分类器的训练两阶段所导致特征和分类器不适配的问题,提出了一种联合训练的方法,对词向量与分类器联合训练。其次,针对基线系统中分类器模型较简单而拟合能力不够强的缺点,利用四种不同的分类器对分类进行了改进。我们在两个跨语言文本分类数据集上进行实验验证了我们的改进的有效性。第四章中,我们提出了一种全新的基于语义匹配的跨语言文本分类模型,将跨语言分布式表示的训练重新抽象为语义匹配问题,通过句意匹配任务训练一个句子编码器来同时得到句子和词的跨语言表示,训练分类器时直接采用句子编码器的一部分结构。我们在两个跨语言文本分类数据集上验证了我们模型的有效性。同时我们在单语文本分类任务上进行实验,证明了我们模型中的句子编码器作为分类器同样有较好的性能。本文的创新主要体现在:首先,将两个训练引入跨语言文本分类任务中。训练与任务相关的分布式表示,并取得了较好的结果。对多种分类器在跨语言文本分类上的任务进行了实证性研究。最后,将跨语言文本分类模型看做语义匹配问题,并设计了一种全新的句子编码器,能够充分利用长距离信息和局部信息对句子进行编码。最终在跨语言文本分类任务上取得了良好的性能。