论文部分内容阅读
文本表示是自然语言处理(Natural Language Process,NLP)领域的关键技术,文本表示的质量往往对现代基于深度学习的NLP系统产生至关重要的影响。传统的NLP系统多基于特征工程实现,需要专家定义特征并撰写特征抽取器,有效特征往往难以定义且实现复杂。深度学习技术的发展为NLP带来了重大技术突破,基于深度神经网络的方法可以从数据中自动学习文本的特征,不仅工程量极大地减少,往往分类效果也更具优势。随着神经网络的结构变得更深更复杂,情感分析、主题分类等文本分类任务的瓶颈得以不断突破。虽然加深神经网络的深度可以获得更强大的函数逼近和数据拟合能力,即表达能力,但是目前没有工作表明模型的表达能力与模型的语义鲁棒性是否存在相关性。此外,以词向量为代表的预训练语义表示模型往往可以提升下游NLP任务的表现,现有的对上下文无关词向量的迁移策略的研究仍然比较初步。由此,本文对基于神经网络的模型的语义表示鲁棒性和词的迁移学习策略进行深入研究,具体如下:文本语义表示能力与文本分类性能的相关性研究。本文从信息缺失和噪声冗余两个角度给出语义鲁棒性的定义,提出一种可靠的语义评价模型RAcc(Robust Accuracy),弥补了传统分类评价指标无法评估模型稳定性的缺陷。基于RAcc模型,本文重点研究深度神经网络模型的表示能力与分类性能的相关性,实验结论揭示了现有表示和分类模型的局限性,为文本分类等NLP问题的研究提供启示。词向量的迁移学习策略。从海量的通用语料中预训练词向量,并迁移到下游分类任务中可以提升系统的性能。现有的研究往往使用词向量随下游模型联合训练的微调策略,来使得预训练的词向量模型更好地适配下游任务。本文指出该策略并不能总是带来预期的性能提升,却可能极大地增加训练资源开销。对此,本文首先为该策略建立一种称为“3-signal”的理论模型,解释该策略理论上存在的局限性,而后提出两种更高效的迁移学习策略Scaling和Lin-trans。实验表明本文提出的方法在分类任务上不仅可以带来显著的性能提升,并且在RAcc评测下表现出更强的语义鲁棒性。