论文部分内容阅读
对偶性(Duality)广泛地存在于人工智能和机器学习任务之中,例如,中文到英文的翻译和英文到中文的翻译,图像分类和图像生成,语音识别和语音合成等。对偶性指的是两个任务之间的对称性或者概率上的关联性。虽然很多任务通过对偶性紧密联系,但是这种重要的性质在现有的机器学习方案中并没有得到广泛的应用。具有对偶性的两个任务的机器学习模型仍然是独立地训练。为了利用这个重要的性质,本论文提出了一种新的学习方案:对偶学习(Dual Learning)。对偶学习利用任务之间的对偶性作为约束,同时训练两个任务,使得它们的效果都得到提升。考虑到深度学习在自然语言处理和图像处理的任务中取得了目前最佳的结果,本文选择深度学习模型作为实验工具。本文从学习方案,理论保障和实验分析三个角度进行对偶学习的研究。就学习方案而言,在训练阶段,当有标数据有限的时候,通过无标数据作为媒介,本文提出了对偶无监督学习,对无标数据实现了可控的利用,提升了模型质量;另一方面,在有监督学习上,通过利用一组对偶任务之间概率上的对偶性,本文提出了对偶有监督学习,改进了对偶任务的效果。在测试阶段,通过引入对偶性,本文提出了对偶推断,并且任务的性能会被再一次提升。上述三点都可以归结于数据层面的对偶,即通过对数据的控制影响损失函数,进而起到引入对偶性的作用。与之相对应的是模型层面的对偶学习,根据模型功能上的对偶性设计出新的模型,通过参数共享的方式,使得单个模型可以解决一组对偶任务,并且得到性能的提升。就理论保障而言,本文为对偶学习设计了理论框架,利用Rademacher复杂度相关的知识进行研究。本文给出了对偶学习初步的理论分析,证明了对偶学习具有更好的泛化能力。就实验分析而言,本文在神经机器翻译,图像处理和情感分析三个任务上验证了对偶学习的能力。考虑到神经机器翻译是对偶学习的重要应用,本文也研究了新的神经机器翻译的模型——推敲网络,并在实验中与对偶学习进行结合。推敲网络和经典模型不同之处在于,它能够显式地推敲一个已经生成的序列并得到更好的序列。在机器翻译的任务上,本文的方案在若干翻译任务上取得显著的提升并在WMT17中文到英文翻译任务上取得了单模型最佳的效果;通过利用对偶学习,在图像分类的任务上,分类器的错误率能够进一步下降;在图像生成的任务上,能够训练出当前最佳的逐像素生成器;在情感分析任务上,使用对偶学习之后,文本分类器分类准确度得以提升,文本生成器能够产生具有更强感情色彩的语句。