论文部分内容阅读
机器学习领域的许多问题都可以形式化为序列学习问题。在序列学习问题中,若干数据点构成一个前后有序的整体,每个数据点需分别赋予一个类别标签。因为序列中数据点之间存在着丰富而复杂的序列依赖关系,此类问题具有很大的挑战性。经典的机器学习方法,由于受数据独立性假设的局限,无法考虑前后数据的依赖关系而丢失了许多重要信息,使得分类效果降低,甚至无效。条件随机场(Conditional Random Fields,CRF)模型是目前解决序列学习问题的有效方法,在自然语言处理,计算机视觉,生物信息等领域得到的广泛的应用。
虽然CRF取得显著的成功,但是训练一个有效的模型,仍然面临着代价过高的挑战。这些代价主要来自两方面。首先是设计特征的代价是高昂的。特征对于分类器来说至关重要,然而设计好的特征需要领域专家的参与和指导,需要付出极大代价。其次,为了模型训练,要标注大量的数据,而数据标注的代价是巨大的。如何减少标注代价,近年来一直是机器学习研究者致力解决的问题。由于序列数据的复杂性,以上两个问题对于序列学习问题更为突出,尚无有效的解决方法。针对上述问题,本文提出了基于迁移学习框架的序列模型。在本文提出的模型框架下,给出了一个特征学习和少量训练数据学习问题的集成解决办法。
首先,针对序列数据的特征学习问题,本文提出了神经网络.条件随机场混合模型(NNCRF)。利用神经网络学习原始数据的健壮特征表示已成为目前研究的热点,然而如何学习非独立数据的特征表示还是一个亟待解决的问题。本文将CRF和神经网络相融合,使得模型不仅能够保留CRF在学习序列数据的动态特征能力,而且能够从原始输入数据中学习到更有效、低噪声、非线性的高级特征。同时,NNCRF模型的多层结构为进一步的迁移学习序列模型奠定了基础。
其次,基于NNCRF模型,本文创新性的提出了序列模型的迁移学习方法。在机器学习任务中,不同但是相关的学习任务之间是存在某些共通的知识的。本文提出的迁移学习序列模型,就是利用来自相关的辅助任务的有益知识来提高目标任务的训练效果。它通过从相关的序列学习任务学习到的知识共享到目标学习任务中,间接的利用了相关任务的训练数据。本文不仅给出了序列模型的迁移学习的模型架构,而且对任务之间的相关性,以及对目标学习任务的提升都做了详尽的理论和实验分析,并给出了序列模型的迁移学习方法的优化目标和优化算法。通过本文提出的迁移学习的序列模型架构,多个相近的序列模型可以同时学习,共享共通的领域知识。这样,即使在目标学习任务的训练数据较少的情况下,仍可以间接利用辅助学习任务的训练数据,从而增加模型的泛化性。
最后,在迁移学习序列模型的基础上,本文根据序列数据的特性,设计了基于伪任务的多任务学习。其中,伪任务并非实际存在的真实学习任务,而是借鉴语言模型的思想,从目标任务中构造的是一个无监督的序列模型。由于它可以使用未标注数据进行训练,因此在NNCRF迁移学习的框架下,同时训练目标任务和伪任务两个模型,使得模型的训练过程转变为半监督学习。伪任务的设计,是模型不仅能够利用未标注数据参与训练,而且使得迁移学习序列能够在没有真正的辅助任务的情况下也能工作,极大的扩展了模型的灵活性和应用范围。
本文提出的NNCRF模型具有特征学习的能力,并且以NNCRF模型为基础的迁移学习可在训练中利用相关学习任务的标注数据和未标注数据,从两个方面增加了训练可用的数据量,减少了数据标注的代价,而且也对特征学习可提供有益的促进。通过模拟数据的实验,展示了本文提出的模型在特征学习和序列学习方面的优势。同时,在动作识别的真实数据集上的实验也表明,本文提出的序列迁移学习模型能够取得比包括CRF,SVM在内的当前流行的机器学习算法更好的分类性能。