论文部分内容阅读
随着互联网技术和电子商务的迅速发展,情感分析受到自然语言处理领域研究者越来越多的关注。情感分析有很多的社会应用,如信息抽取、在线广告和推荐系统等。本文讨论的情感回归是情感分析的一项基本研究任务,该任务旨在对文本表达的情感进行自动评分。以往情感回归的研究通常都需要大量标注样本来训练机器学习模型。然而由于领域分布的多样性,在一个领域训练得到的回归模型通常在别的领域性能不佳,而对每个感兴趣的领域都标注样本又非常耗时耗力。为了解决上述问题,本文从目标领域标注样本数量多少的角度出发,对跨领域情感回归方法进行研究,具体研究内容分为以下三个方面:首先,针对目标领域有充足标注样本的情况,本文提出了融合分类和回归模型的评论评分方法。基本上,分类模型和回归模型是评论评分的两类主要方法,两者都有各自的特点和优势。我们的方法可以充分结合分类模型和回归模型的优势。具体而言,我们采用了一个基于辅助分类模型的长短时记忆网络(Long Short-Term Memory network,LSTM)层从分类模型中学习辅助表示,并且同时将辅助表示加入主LSTM层学习评论回归模型。在训练过程中,联合学习辅助LSTM分类模型和主LSTM回归模型。实验结果表明,我们的联合学习方法比单独使用分类或回归模型性能都要好。其次,针对目标领域有少量标注样本的情况,本文提出了一个新的情感回归的监督领域适应方法。当目标领域样本较少,不足以训练得到一个好的回归模型的时候,可以用监督领域适应方法来提高目标领域的性能。并且,由于源领域和目标领域的评分范围可能不一致,情感回归的监督领域适应更具有挑战性。为了解决上述问题,我们提出了一种跨领域LSTM模型。具体而言,该模型使用辅助LSTM层从源领域学习辅助表示,同时将辅助表示加入到主LSTM层用于目标领域回归任务的训练。在训练过程中,源领域的回归模型和目标领域的回归模型联合训练并更新参数。实验结果表明,我们的联合学习方法比几个强大的基线方法性能要好。最后,针对目标领域只有未标注样本、没有标注样本的情况,本文提出了一个新的情感回归的半监督领域适应方法。当目标领域只有未标注样本时,采用半监督领域适应方法来提高目标领域性能,与监督领域适应方法相比难度更大。针对该任务,本文提出了基于变分自编码器的情感回归半监督领域适应方法。具体而言,首先使用长短时记忆网络(LSTM)来实现回归模型,其次我们用变分自编码器(VAE)来实现生成模型,最后联合学习LSTM回归模型和VAE生成模型,实现基于变分自编码器的情感回归半监督领域适应方法。实验结果表明,我们的方法比几个强大的基线方法性能都要好。