论文部分内容阅读
随着社交网络、电子商务以及互联网+技术的迅速发展,对产品评价、新闻舆论等带有感情色彩的主观性文本进行情感极性分析,有助于了解用户态度倾向;在商业领域,可用于分析商品被用户认可度,为商品推荐、信息推送等提供基础;在社交新闻领域,可用于舆论分析,为舆情监控、信息预测等提供基础。因而,文本情感极性分析的研究越来越被关注,成为自然语言处理、人工智能等领域的热门课题。由于目前网络中的评论语料涉及的领域和范围广泛,手工标定足够的样本为每一个领域建立一个情感分类器是非常困难的;加之不同领域评价用语等的差异性以及实际应用中存在应用场景的差异性,易造成领域间样本数据的分布差异,在某个具有良好数据标定的领域训练好的模型很难直接应用到其他领域中,获得理想的分类效果。因此,跨领域情感分类问题的研究,特别是基于迁移学习技术实现跨领域情感分类器的研究,因其为领域间的知识迁移提供了解决方案,提高了情感分类器的准确性和普适性,成为了自然语言处理领域重要的研究课题,具有重要的应用和研究价值。为了提高跨领域情感分类的准确率,本文主要通过基于特征对齐的领域自适应方法,采用特征映射函数分别将不同领域的样本数据映射到相同的特征空间,构建不同领域统一的特征表示,从而消除领域样本分布差异,实现领域自适应。主要的研究工作和创新点如下:1、提出了一种基于多视角共享特征的领域空间对齐跨领域情感分类模型。该模型充分利用现有情感词典并结合特征词的互信息值进行领域间无歧义共享特征词提取,并将基于语法规则提取的相同极性情感词对,和基于关联规则算法学习的领域中有强关联关系的特征词对,建立的同一领域特征共享词和领域专有词间的直接映射关系,以无歧义共享特征词为桥梁,建立领域间专有特征词间的间接映射关系,构建领域数据的统一特征表示空间,消除领域数据的分布差异。在Amazon公开产品评论语料数据集上的跨领域实验表明,与一些主流的算法相比,本文所提出的跨领域情感分类模型提高了情感分类的准确率、降低了知识的传递损失率。2、提出了一种基于领域不变特征的无监督对抗自适应深度神经网络模型(DAA)。该模型在特征提取模块的基础上,集成两个任务模块:附加任务模块和特定任务模块建立了统一深度网络框架,基于样本驱动完成领域不变、可转移、类别可判别的特征表示学习,消除领域样本分布差异,实现领域特征空间的对齐。其中,附加任务模块的领域分类器,利用领域对抗思想更新特征提取器参数,确保所提特征的领域无关性。特定任务模块的领域特征对齐层,利用核函数将特征映射到再生核希尔伯特空间(RKHS),并通过增加领域间最大化平均差异(MMD)为约束,提高特征在领域间的转移性,增加在高维空间领域特征匹配的概率,使不同领域特征处于同一分布。针对图像分类问题中存在的数据集偏移等问题,建立以深度卷积神经网络组成的特征提取模块为核心的无监督领域对抗自适应深度神经网络框架。以公共的Office-31图像数据集,基于Office-31改进的OfficeCaltech图像数据集,以及由数字图像数据集MNIST、SVHN和USPS组成的跨领域图像数据集,分别进行分类实验,结果表明本文所提出的模型在解决因光线、背景等外界因素造成的图像特征分布差异的领域自适应问题上具有有效性,提升了算法应用的泛化能力。3、面向跨领域文本情感分类问题,验证基于领域不变特征的无监督领域对抗自适应框架的可用性。考虑到边缘堆叠降噪自编码机(mSDA)具有鲁棒的文本特征提取能力,本文采用深度边缘堆叠降噪自编码机替代DAA模型中深度卷积神经网络来构建特征提取模块,建立面向跨领域文本情感分类的mSDA_DAA领域自适应模型。模型中的mSDA作为特征提取器,具有训练网络时间短,特征鲁棒的优势,结合所提DAA统一框架中附加任务模块和特定任务模块,以对抗学习思想和领域自适应相关理论方法为基础,以源领域标定样本和目标领域未标定样本为数据驱动,通过学习映射函数将样本的原始空间映射到新的特征空间来匹配不同领域的特征分布。在Amazon公共评论数据集上的跨领域情感分类实验表明,相对mSDA模型,所提出的mSDA_DAA模型增强了所学特征的领域不变性、可转移性和类别可判别性,提高了跨领域情感分类的准确率。