论文部分内容阅读
随着国际交流的日益频繁,跨语言的顺畅沟通成为越发迫切的需求。在这个背景下,跨语言的自然语言处理将发挥其重要的作用。词汇的表示是几乎所有自然语言处理任务的基础,在跨语言自然语言处理中,双语词汇表示学习也得到了研究人员的广泛重视。尽管平行语料是此任务的理想语料,但由于平行语料是稀缺资源,对于许多小语种以及专门领域而言,非平行语料更为丰富,所以利用非平行语料学习双语词汇表示具有更广的应用前景。然而,由于非平行语料中的跨语言信号更难捕捉,因此对于学术研究来说也更有难度。已有的相关工作大多仍依赖双语监督信号进行学习。本文以双语监督信号为线索,讨论相关工作中存在的挑战,并针对各个挑战依次介绍相应的研究工作。主要内容包括:1.有监督场景。已有的双语词汇表示学习研究大多在双语监督信号充足的条件下开展。尽管如此,仍然存在着有待解决的挑战。比如,构建双语词典时通常采用的最近邻查找有其局限性;又如,已有的工作不考虑自然语言之间广泛存在的一词多译现象。本文提出使用earth mover距离进行词汇翻译,发现其能够克服最近邻的局限性,同时能够自动处理一词多译的情况。此外,将此思想从词汇翻译过程引入双语词汇表示的训练过程,能够更进一步发挥其效果。2.弱监督场景。对于许多小语种和专门领域而言,双语监督信号往往是难以获得的稀缺资源。面对这种监督信号缺乏的挑战,本文提出了一种基于隐变量的双语词向量匹配模型,能够充分利用有限的双语监督信号,使得此任务在弱监督场景下也能取得良好的效果。3.无监督场景。沿着监督信号缺乏的挑战更进一步,本文探索了无监督场景下进行双语词汇表示学习的可能性。首先,本文尝试利用对抗学习的思想对此问题进行建模;随后,本文提出了更为普适的分布距离最小化的框架,并选用earth mover距离作为分布距离的选择。实验结果表明,即便是在无监督这样苛刻的条件下,进行双语词汇表示学习仍是可行的。