论文部分内容阅读
随着Web2.0时代的到来,飞速发展的互联网极大地改变了人们表达意见、抒发情感的方式和途径,微博、论坛等社交平台不断涌现,人们逐渐习惯于在这些平台上发表评论,这些评论蕴含许多重要的信息,例如情感倾向性等,通过对评论文本进行情感分析能够辅助人们进行产品推荐、舆情分析等,因此探究性能良好的情感分析算法具有巨大的实际意义。常用的情感分析方法主要分为基于传统机器学习技术、基于情感词典和基于深度学习的方法。基于深度学习的方法依靠无监督训练的词向量来表示文本,但是这种方法没用充分表示出文本的上下文语境关系,而且经常用于处理文本的循环神经网络结构比较复杂,训练难度较大。另外,随着各个领域新产品的不断涌现,新的领域往往缺少大量的有标签数据来训练模型,因此,研究如何利用已有领域的有标签训练数据对新的领域进行情感分析具有重要意义。本文针对现有的情感分析算法存在的问题进行了研究,探究了迁移学习技术在情感分析算法中的应用,主要的工作内容包括以下三个方面:(1)针对无监督训练的词向量无法表示上下文语境关系的问题,本文提出基于模型迁移的分层注意力网络的情感分析算法,利用机器翻译任务训练一个编码器,并将这个编码器模型结构迁移到情感分析任务中,用于生成文本的分布式表示。由于翻译模型需要充分提取上下文中的关键信息才能够尽可能准确地实现一种语言到另一种语言的转换,因此,经过这种方式获得的词向量涵盖了上下文语境关系,对情感分析算法的性能有很大的提升。(2)本文使用分层的注意力机制神经网络完成文本情感分析任务,网络主要分为单词层和句子层,在每层都使用一种称为最小门单元的简化的神经网络结构,减少了模型参数,降低了模型训练难度,并且在每层均引入了注意力机制来提取重要的信息。(3)针对在一个领域内训练的情感分析算法无法应用于其他领域的问题,本文提出了基于特征的跨领域迁移的情感分析算法,利用编码器提取领域无关的公有特征和目标领域的私有特征,然后结合这两种特征利用源领域有标签样本数据和小部分目标领域有标签样本数据训练分类器,实现跨领域情感分类。