论文部分内容阅读
随着通讯和计算机技术的飞速发展,互联网应用不断深入社会的各个方面,文本作为人们直接表达情感和观点的载体,在网络数据中占据较大比重。如何分析和挖掘这些富含情感的文本数据,近年来一直是学术界和产业界共同关注的热点。文本表示在情感挖掘和分析任务中至关重要,其性能会直接影响文本情感分析的效果。主题建模作为一种主流的文本建模和表示方法,在文本情感分析中被广泛使用。它可以利用词语在文本中的关联关系,将具有相关性和相似性的内容抽取为主题,构成主题概念表示空间。然而,在主题建模过程中,一般将文本情感内容与其它内容的地位平等处理,并没有凸显文本中包含的情感语义。此外,经典主题建模没有考虑文本序列、词语上下文等语义关系模式,在文本表示能力方面也具有一定的局限性。针对主题建模优势与不足,本文从文本情感分析任务的实际需求出发,充分利用深度学习与领域知识,扩展主题表示所涵盖的情感语义,增强主题对情感语义的表现形式和能力,拓展了主题表示在情感分析任务中的使用方式,形成了一种主题建模与任务目标相适应的文本情感分析模式。本文主要研究内容和取得成果如下:(1)基于特定任务知识主题建模的情感分析。在文本情感分析时,存在垃圾观点表述与正常情感表达难以区分的问题,将直接干扰情感分析的性能。为此,本文提出了增强主题表示的垃圾观点识别方法。该方法结合已有情感词典资源,设计了五种垃圾观点启发式规则知识,并将其引入主题建模过程中,用于增强主题表示。通过对垃圾观点的识别,证明了启发式规则与主题建模结合构造的文本表示,能够将几类文本垃圾观点与有效评论文本内容区分,提高了有效评论和垃圾评论的分类性能,同时,也为文本情感分析提供优良的数据资源。(2)集成多文本表示策略的情感分析。数据资源是文本情感分类的基础,当目标语言的标注数据缺乏时,其他语言的标注数据可以提供有力支持,这涉及到多语言情感分析任务。然而,不同语言的表示特征差异较大,如何将特征语义对齐成为该研究的关键问题。为此,本文以跨语言文本主题表示和传统向量空间文本表示为基础,结合两种表示的优势,设计了主题表示和向量空间文本表示的融合策略,将其用于构建跨语言情感倾向判别框架。通过实验,我们验证了情感倾向特征分布具有分散和聚集效应,且跨语言主题表示可以有效平衡情感特征差异、缓解数据稀疏性,而实验结果也达到了预期效果。(3)基于主题度量的半监督情感分析。当文本情感分析的标注数据不足时,可以借助大量未标注数据,这就涉及到半监督学习框架,其核心技术为样本内容主题度量。本文构建了两种不同功能的样本内容度量,并将这些度量融入到半监督学习框架中,形成基于主题度量的半监督情感分类方法。我们将这一方法用于跨语言情感分类任务,并设计了对齐翻译主题模型,构造了文本主题表示。实验结果表明,跨语言任务分类性能取得显著提高,同时,也证明了基于主题度量的半监督情感分类方法的有效性。(4)融合向量表示主题建模的情感分析。情感语义是人们感受和思维活动的综合体现,其在文本中具有多重形式和角度的表达方式,如词语上下文关联、文本主题等,而且不同表达方式刻画的情感内容的侧重点也存在差异。因此,仅依靠文本主题关系,并不足以全面地反映情感语义的全部内容,还应该在主题表示中融入其它表达方式刻画的情感语义。本文提出了一种文本表示模型的信息融合方法,并利用该方法设计了向量增强主题模型,用于将词向量反映的词语语义信息引入到主题表示中。实验结果表明,引入词向量语义后,主题表示可以有效地聚类文本中具有不同语法、语义功能的词语,并将它们划归到相应主题中,提高了主题表示对情感语义的刻画能力。此外,利用向量增强主题模型,还设计了样本主题相似性度量,实验结果表明,该度量在复杂文本聚类任务中具有较好的性能。(5)主题建模在情感分析系统中的功能设计。面向网络服务的分布式系统设计框架,我们将本文提出的主题建模以及情感分析方法设计为组件,按照业务逻辑将各组件添加到系统框架中,实现了一个在线文本情感分析的原型系统。本文详细说明了原型系统的框架设计、功能组织等细节,并以实际产品评论为示例,展示了数据分析结果。