论文部分内容阅读
互联网的快速发展催生了各种网络社交平台。用户在网络社交平台上发表个人观点、评价产品等行为逐渐成为了日常生活的一部分。利用自然语言处理和机器学习技术对海量的用户文本数据进行分析,挖掘用户对特定事件、人物或产品的态度和评价,成为网络舆情监控和产品售后信息反馈的重要途径。因此,面向文本的情感分析方法研究具有很高的实用意义和商业价值。本文分别对中文文本情感分析研究中的文本情感特征提取和表示以及迁移学习这两个方面进行了研究。首先,现有的文本情感分析技术在文本的情感特征提取及表示方面,缺乏对深度学习模型和情感计算资源进行有效整合的方法。针对这个问题,本文研究了结合卷积神经网络和词语情感序列特征的中文情感分析方法。该方法以词语为研究单位,结合卷积神经网络和已有的情感计算资源,实现文本数据到文本情感特征向量的映射过程。在COAE2014微博情感倾向性判别的数据集上的实验结果显示,该方法相比于基线系统在正面情感倾向性判别和负面情感倾向性判别的F-Score上分别获得了0.97%和1.58%的提升。这一工作为融合深度学习模型和情感计算资源提供了一种可行的思路,有望成为文本情感分类研究的新方向。文本情感分析数据大量存在领域相关性和样本选择偏置的问题,影响了最优分类模型的构建。为此,本文从构建符合测试数据分布的训练数据集的角度出发,分别研究了基于k近邻的实例迁移学习方法、基于分类器迭代选择的实例迁移学习方法和基于高斯过程的知识迁移学习方法。在COAE2014微博情感倾向性判别的数据集上的实验结果显示,这三种迁移学习方法相比于基线系统,在文本的情感倾向性判别的整体性能上均获得了提升。其中,基于高斯过程的知识迁移学习方法取得最好效果,在正面情感倾向性判别和负面情感倾向性判别上的F-Score分别获得了5.01%和2.94%的提升。这一工作有效地降低了文本情感分析数据的领域相关性和样本选择偏置问题给分类模型带来的负面影响。