论文部分内容阅读
随着互联网的快速发展和Web2.0时代的到来,在线新闻服务已成为主要的网络信息载体。越来越多的民众通过在线新闻了解时事动态,以新闻评论的形式表达观点、抒发情感。了解新闻评论中的用户情感,掌握网民态度和情绪变化,可辅助在线新闻服务商理解用户的偏好,为用户提供更好的个性化服务;同时,有助于政府进行民意问询和公共管理决策,有效实现舆情分析和监控。因此,自动判别用户在新闻评论中所表达的情感,尤其是具体情绪,具有重要的理论意义和实用价值。本文在透彻分析大众情感分类的基础上,结合机器学习技术,对在线新闻评论中用户情绪自动判别和预测进行了深入研究,包括基于单一信息源的在线新闻评论情绪预测、结合多种异构信息源的在线新闻评论情绪预测和跨领域跨类别在线新闻评论情感分析。主要贡献和创新包括:第一,提出了基于单一信息源的在线新闻评论情绪预测系列方法。提取出可用于在线新闻评论情绪预测的各类信息源,包括用户评论的文本内容、新闻的文本内容和用户情绪投票信息等,在概率框架下为每种信息源构建相应的多类分类模型,实现了对在线新闻评论中用户情绪的自动判别。根据人类情绪间存在的相互依赖关系,设计了基于情绪依赖性的在线新闻评论情绪预测改进方案。该方案利用用户情绪投票信息,以皮尔逊相关系数衡量情绪间的依赖性,将情绪依赖性引入情绪预测模型,从而提高模型的准确度。实验表明,本文提出的各种信息源均可用于在线新闻评论的情绪预测,其中采用评论文本内容为信息源、基于逻辑斯谛回归模型的情绪预测方法性能最优;情绪间存在相互关系,情绪依赖性信息有助于改进新闻评论情绪预测效果。第二,提出了两类结合多种异构信息源的在线新闻评论情绪预测方法。由于新闻评论的各种单一信息源均从各自角度为新闻评论的情绪预测做出贡献,结合多种异构信息源可提高情绪预测的准确性。首先设计了基于逻辑斯谛回归模型的基本再分类方法,该方法将多种异构信息源的预测结果作为特征构建再分类模型,实现对在线新闻评论情绪的二次分类;然后提出了基于潜在评论类别的再分类方法,该方法不同于基本再分类方法对所有评论均采用同一种固定的权重结合策略,而是根据评论的特征对评论划分潜在类别,为每一类中的评论选取最优的结合策略,实现了为不同评论分配相应的异构信息源结合权重,当处理大量差异较大的评论集合时更具优势。实验表明结合多种异构信息源的再分类方法优于基于单一信息源的情绪预测方法,并且基于潜在类别的再分类方法的情绪预测结果更加准确。第三,提出了多领域通用的在线新闻评论情感分析方案。不同领域的新闻评论情感分析需要不同的分类模型和相应的标注训练数据集,而人工标注工作费时费力,针对该问题设计了两种分别适用于源领域和目标领域共享相同的情感类别集合和这两个领域采用不同的情感类别集合情境的跨领域新闻评论情感预测方法。在目标领域只有少量的标注数据而另一相关但不相同的源领域拥有大量的标注数据条件下,构建概率框架模拟源领域和目标领域情感类别集合间和关系,通过此关系实现不同领域间的知识迁移,从而帮助目标领域新闻评论的情感预测。实验结果表明这两种方法显著地优于其他跨领域跨类别在线新闻评论情感预测的替代方法。