基于评论极性与集成学习的微博谣言检测研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:znchen1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为最受欢迎的社交网络应用之一,在带给人们信息便利的同时,其中也充斥着网络谣言。网络谣言借助微博信息繁多、传播自由快速等特点,在平台上肆意传播,对个人和社会造成了严重危害。谣言的自动检测研究作为社交网络谣言研究、监控和治理的前提,逐渐受到社会和有关研究者的广泛关注。本文以微博谣言为研究对象,分析微博相关文本信息与用户信息,提取出深层、隐性的差异信息作为新的分类特征;同时,借助集成学习的思想,优化Stacking集成算法以构建集成分类模型,完成谣言的自动检测。本文的主要工作如下:(1)基于谣言微博文本信息与用户信息的深层特征提取。通过分析已有研究提取的谣言特征,发现其中大多数特征较为简单、浅显,缺乏对相关文本信息与用户信息的深入分析。本文分析谣言微博与非谣言微博在评论信息、发文用户信息以及传播用户信息上的差异性,总结并提取出负面情绪评论比例、用户信誉值、辟谣用户参与等深层隐性特征,并给出了特征定量方法。(2)针对微博评论极性特征的量化问题,提出了一种结合语义规则的机器学习情感分类方法。首先,收集并整理五个方面的词典资源,构建了一个较全面的极性情感词典;然后,将整个文本进行层级划分,并通过对微博文本表达形式以及句式结构的分析总结,定义了相应的语义规则与计算方法,更精确地计算文本的情感极性;最后,将语义规则和机器学习的方法相结合,利用语义规则计算方法提取文本的语义情感信息,将其拓展为语义情感特征,与基础情感特征结合作为机器学习分类方法的特征集,在一定程度上解决了机器学习分类方法忽略上下文语义联系和情感词典方法难以囊括新词的问题。(3)设计了一种面向谣言检测的CE-Stacking集成分类模型构建方法。通过分析已有研究使用的分类模型,发现大多是使用分类算法构建单一分类器,泛化性能较差,缺乏对强分类模型的研究;本文结合集成学习的思想,利用评论极性特征优化Stacking集成方法,构建强分类模型,提高谣言检测的准确率。通过抽取新浪微博数据进行实验验证,其结果表明,本文提出的情感分类方法和谣言检测模型相比此前研究的方法与模型,在分类效果上都有一定提升。
其他文献
介绍了地铁坑口车站的建筑设计,探讨了作为交通建筑的地铁车站在客流系统组织疏散和防灾设计、无障碍设计方面,如何做到安全、可靠、快捷;在建筑的装修方面如何尽量节省投资,达到
目的分析护理行为现状,找出存在的问题;通过传统教育前后调查问卷的对比,探索传统文化教育对护理关怀行为的影响。方法应用护理关怀行为评价表(CBA问卷),采用调查问卷和统计
基于对文献的分析,在对胜任力的概念进行阐释的基础上,重点梳理了十余年来国内外关于金融从业人员的胜任特征及胜任力模型的研究,以期对国内此领域研究及金融行业人力资源部
<正>贵州是一个经济落后、贫困问题十分突出的省份,当前首要任务就是促进经济高速增长、提高人民生活水平。这就要求加快国际贸易的发展、积极开展对外经济合作、充分吸引外
“とる”一词,汉字一般书写为“取”,意思颇多,是所含意思最多的动词之一。《広辞苑》(第6版)列出的意思是52个,《国语大辞典》56个,而日本《大辞林》列出的意思最多,为73个。
97刑法将嫖宿幼女行为从强奸罪中分出,成立嫖宿幼女罪。但是这种修改无论是从刑法理论上看,还是从其实践效果看,都存在较大问题,没有达到立法者的立法意图。有必要对其进行修
海口高科技研究试验区规划程世丹为了使海口经济尽快走上技术发展型的道路,海口市政府决定在长流组团划出150hm2用地,建设一个高科技研究试验区,以促进海口经济的腾飞。其目标是创建以
目的:研究肺微血管内皮细胞的分离和纯化方法,探讨内皮细胞的透明质酸对于单核细胞粘附的作用.方法:用两次植块法分离狗和大鼠的肺微血管内皮细胞.通过粘附实验,观察单核细胞
目的:探讨不同类型的瓷贴面以及烤瓷全冠口腔美容修复中的临床效果。方法:选择我院牙科收治的40例患者,共制作120个瓷贴面以及64颗烤瓷全冠,随访1年,复诊时观察患者的修复体边缘适