论文部分内容阅读
微博作为最受欢迎的社交网络应用之一,在带给人们信息便利的同时,其中也充斥着网络谣言。网络谣言借助微博信息繁多、传播自由快速等特点,在平台上肆意传播,对个人和社会造成了严重危害。谣言的自动检测研究作为社交网络谣言研究、监控和治理的前提,逐渐受到社会和有关研究者的广泛关注。本文以微博谣言为研究对象,分析微博相关文本信息与用户信息,提取出深层、隐性的差异信息作为新的分类特征;同时,借助集成学习的思想,优化Stacking集成算法以构建集成分类模型,完成谣言的自动检测。本文的主要工作如下:(1)基于谣言微博文本信息与用户信息的深层特征提取。通过分析已有研究提取的谣言特征,发现其中大多数特征较为简单、浅显,缺乏对相关文本信息与用户信息的深入分析。本文分析谣言微博与非谣言微博在评论信息、发文用户信息以及传播用户信息上的差异性,总结并提取出负面情绪评论比例、用户信誉值、辟谣用户参与等深层隐性特征,并给出了特征定量方法。(2)针对微博评论极性特征的量化问题,提出了一种结合语义规则的机器学习情感分类方法。首先,收集并整理五个方面的词典资源,构建了一个较全面的极性情感词典;然后,将整个文本进行层级划分,并通过对微博文本表达形式以及句式结构的分析总结,定义了相应的语义规则与计算方法,更精确地计算文本的情感极性;最后,将语义规则和机器学习的方法相结合,利用语义规则计算方法提取文本的语义情感信息,将其拓展为语义情感特征,与基础情感特征结合作为机器学习分类方法的特征集,在一定程度上解决了机器学习分类方法忽略上下文语义联系和情感词典方法难以囊括新词的问题。(3)设计了一种面向谣言检测的CE-Stacking集成分类模型构建方法。通过分析已有研究使用的分类模型,发现大多是使用分类算法构建单一分类器,泛化性能较差,缺乏对强分类模型的研究;本文结合集成学习的思想,利用评论极性特征优化Stacking集成方法,构建强分类模型,提高谣言检测的准确率。通过抽取新浪微博数据进行实验验证,其结果表明,本文提出的情感分类方法和谣言检测模型相比此前研究的方法与模型,在分类效果上都有一定提升。