基于集成分类器的微博谣言检测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:loserlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的信息多元化、言论自由、爆炸式地传播速度等特点助长了谣言消息的生成和传播,使得微博成为了虚假不实消息传播的理想场所。因此,自动进行谣言检测的相关研究应运而生。现有的谣言检测算法取得了一些成果,但仍然还有待提升之处。首先,谣言检测正确率尤其是谣言早期检测正确率还有提升的空间;其次,现有谣言检测算法并未考虑到训练数据类别不平衡问题,会使得学习器不能充分学习到少数类样本的分布。为了解决以上问题,本文开展相关研究工作,提出了基于集成分类器的GTB-RD谣言检测算法和基于生成对抗训练的GAN-SMOTE算法。本文的主要工作如下:1.提出了基于集成分类器的谣言检测算法GTB-RD。现有微博谣言检测算法大多是一个单一的检测模型。为了提升谣言检测算法的正确率,本文基于集成学习的思想,采用梯度提升方法将多个基础检测器的检测结果结合,提出了一种新的谣言检测算法GTB-RD。2.提出了适用于GTB-RD的特征选择算法、构造了新的特征,并采用所提出的特性选择算法进行特征选择,将这些特征应用到GTB-RD谣言检测算法中,提高了谣言早期检测正确率。现有的谣言检测算法过多依赖于微博传播结构和微博评论等相关特征,非常不利于谣言的早期检测。本文基于所提出的特征选择算法,重新进行了特征工程,并将结果应用到所提出的谣言检测算法GTB-RD上,在真实数据集上的实验结果表明,提升了谣言早期检测正确率。3.提出了基于生成对抗网络的不平衡分类问题处理算法GAN-SMOTE,用于解决训练数据的类别不平衡问题。本文借鉴了生成对抗网络模型的思想,设计了一种基于生成对抗网络的数据采样算法:GAN-SMOTE,通过学习数据样本的分布来生成人工样本。该算法包含一个生成模型和一个判别模型,生成模型用于学习数据分布,判别模型用于判断生成模型所生成样本的好坏,两者进行交替对抗训练,最终生成模型学习到样本的分布。生成模型最终生成的样本用于解决训练数据的类别不平衡问题。在真实数据集上的实验结果验证了GAN-SMOTE算法的有效性。
其他文献
<正> 在强烈的民族愿望和历史剧变中统一起来的德国,无论其经济政治方面,目前都处在转轨阶段的困难时期。人们普遍认为,要消除长期分裂所造成的德意志民族东西两部分"心灵上
目的了解肺癌化疗患者癌症复发恐惧感水平,为提高患者健康行为水平提供依据。方法采用患者恐惧疾病进展简化量表(FoP-Q-SF)、健康促进生活方式量表Ⅱ(HPLPⅡ)对203例肺癌化疗
<正>2013年春运,抢票软件、春运"神器"不胜枚举,背后有着各种动机。一年一度的春运渐行渐远。春运自2013年1月26日始至3月6日,共计40天。据估计,其间全国旅客发送量将达到34.
期刊
在线社交网络成为人们网络生活的最主要平台,人们基于兴趣偏好等原因集聚形成各个网络社区,共同参与感兴趣话题的讨论,表达自己的观点和看法,寻找感兴趣的内容,因此识别在线
文章阐述了我国对未注册驰名商标的保护现状,对未注册驰名商标的认定和救济,及对未注册驰名商标的具体保护措施等方面的问题。结合我国市场经济发展的国情,笔者认为保护未注
目的治疗中重度上睑下垂以往多选择借助额肌力量手术,但易产生并发症,且多数患者对术后效果不满意。本研究探讨提上睑肌缩短联合上睑板部分切除术术治疗中、重度上睑下垂的方
党的十五大提出,依法治国是党领导人民治理国家的基本方略,依法行政是落实依法治国基本方略的基本保障,一切行政机关都要依法行政。党的十六大把发展社会主义民主政治,建设社会主
报纸
在深入分析JIT和逆向物流发展现状的基础上,建立了JIT和逆向物流联系模型,并对JIT在过程管理中和产品生命周期管理中的应用以及信息系统如何支持JIT和逆向物流的整合进行了研