论文部分内容阅读
跨语言分档分类任务是一个给定源语言有标注训练集,在目标语言的测试集上进行测试的文档分类任务。对于特定语言上的分类任务,有监督方法需要的人工标注语料成本较高。尤其在低资源语言上,往往很难获取需要的标注语料。跨语言文档分类任务尝试通过利用源语言(常常是高资源语言)上丰富的有标注语料得到目标语言(常常是低资源语言)上的文档分类器。该任务作为跨语言任务,对研究如何进行跨语言的迁移学习有着重要的理论价值。此外,由于现实世界中大多数语言属于低资源语言,该任务也有着较高的生产实践价值。机器翻译方法是将不同语言空间中的数据和知识映射到同一空间中的最直觉的方法。但前人的研究表明,基于机器翻译的方法在跨语言文档分类任务上的表现较差,和基于双语词向量的方法有着较大的差距。本文针对前人提出的基于机器翻译的跨语言文档分类方法进行了细致地研究,提出并用实验验证了词频特征的稀疏问题是导致该方法性能较差的瓶颈。更多的实验表明,通过特征聚类降低特征的稀疏程度,可以有效地提升该基于机器翻译的跨语言文档分类方法的性能。因此本文提出使用细粒度的单语词向量进一步解决基于机器翻译的方法中的特征稀疏问题形成一个可以应用在有平行语料和无平行语料等各种语料条件下的跨语言文档分类框架。实验表明,本文提出的框架在多种场景下的跨语言文档分类任务上可以达到或超过state-of-the-art模型的性能。在源语言和目标语言上有可用平行语料的情况下,本文的方法在英德方向上超过了之前最好的结果;在德英方向上可以达到之前最好的结果。在源语言和目标语言上没有可用平行语料时,本文提出的框架在利用无监督机器翻译系统时和直接使用无监督双语言词向量相比,同样获得显著性能提升。更多的分析表明,本文提出的框架对于所使用的翻译系统性能,词向量模型等均较为鲁棒,在结合有监督,无监督或在线机器翻译系统和不同的单语词向量模型时均可取得优秀性能。此外,在该任务中,本文提出的框架由于机器翻译模型的加入,和单纯使用双语词向量相比对某些单词在当前上下文中的语义更加敏感。