基于深度学习的高转发量微博遥言识别研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:tonghuasong00000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新浪微博是中国最大的微博服务平台,微博谣言大范围传播将造成不良社会影响。相关法律规定,微博谣言转发500次以上可定性诽谤罪,而用户往往在不明知的情况下做出转发行为。本文从微博文本特征和发布者特征中挖掘高转发量谣言的规律,可对用户提前做出提醒,维护网络健康环境。本文将微博谣言按转发量是否超过500次分为高转发量谣言和低转发量谣言,运用深度学习与机器学习方法进行二分类。本文工作整体流程如下:训练词向量;建立TextCNN和LSTM模型对高转发量谣言进行识别;引入用户特征,依次建立Concat-TextCNN,Concat-LSTM,TextCNN-GBDT,LSTM-GBDT,Wide&TextCNN和Wide&LSTM模型提高识别率。具体工作包括:首先,训练词向量,训练仅利用文本特征的TextCNN和LSTM作为本文基准线。然后,提出第一种加入用户特征提高识别率的方法——基于特征拼接的Concat-TextCNN,Concat-LSTM模型,在此基础上将深度学习网络的中间层结果(语义特征和用户特征的线性组合)作为新的特征,建立GBDT分类器,将这组模型称为TextCNN-GBDT,LSTM-GBDT。最后,提出第二种加入用户特征提高识别率的方法,参考Wide&Deep模型思想,建立Wide&TextCNN和Wide&LSTM模型,Wide组件设计了适合本文任务的交叉特征,Deep部分使用TextCNN或LSTM模型。在新浪微博谣言公开数据集上进行实验,对高转发量谣言进行词频、分类统计、长度统计,可以得到结论:新浪微博用户对国家与国家间事件最为关心;高转发量谣言中最多的是社会生活类谣言;谣言转发量与谣言长度基本无关。训练词向量,实验说明随任务继续训练的Word2vec是最适合本文任务的词向量模式。通过新浪微博API选取粉丝数、关注数、互粉数、新浪微博信用评分、微博数五个用户特征改进分类模型。TextCNN和LSTM分别可以达到79%和89%的F1值;Concat-TextCNN,Concat-LSTM分别达到91%和90%的F1值;TextCNN-GBDT和LSTM-GBDT分别达到94.7%和94.2%的F1值;Wide&TextCNN和Wide&LSTM分别达到89%和92%的F1值。本文贡献与创新在于,利用深度学习技术如TextCNN、LSTM、Wide&Deep模型,加入用户特征,对高转发量新浪微博谣言进行识别,取得了很好效果,对引导微博用户行为提出了建议。在本文结论下,微博用户在转发国家事件、社会生活类事件、明星等VIP账号的微博时要格外谨慎,避免后续大规模转发带来法律后果。
其他文献
由于地理、生态环境以及经济价值等原因,浅海、河口区域的水文参数观监测具有重要的意义:一方面,淡水是人们日常生活必不可少的资源,河流、水库是淡水的主要来源,而且临海、
税收在国民经济中占有不可替代的重要地位,它在我国经济结构转型升级与产业结构变迁中发挥着至关重要的作用,为我国经济建设的持续蓬勃发展提供了坚实的保障。文章通过对研究背景、意义、内容、方法等,争取达到高质量的发展,其核心是以创新、协调、绿色、开放、共享这五大发展理念为指引的经济发展质量状态,结合税收的相关理论知识、最优税收理论,进行研究和分析。本文采用实证研究分析法,首先研究和分析了重庆市的整体情形,
近年来,随着纺织和印染的快速发展,水环境中染料有机物的污染问题日益严重。由于有机染料废水浓度高且不易生化降解,传统的废水处理技术难以处理,而光催化氧化作为一种新型的
随着桥梁工程技术的发展,众多受力体系复杂、跨径大的现代化桥梁相继投入使用。但是,随着桥梁服役时间的增加,伴随着结构材料的疲劳老化,以及桥梁长期受到车辆荷载、自然环境
企业与投资者的信息不对称是目前资本市场所面临的的重大困难之一。信息不对称在一定程度上会加重企业融资约束程度,而企业融资约束直接关系到企业为扩大自身发展的资金需求
近年来,我国的经济增速有所放缓,这影响了国内大多数产业的发展步伐。为了应对经济环境和产业环境变化带来的影响,越来越多的企业想要上市,借助资本市场这个平台来壮大自己。由于申请IPO的企业渐渐排起了长队,借壳便成为了另一种受企业青睐的上市方式,但是随着监管制度的不断完善,证监会对申请上市的企业的要求越来越高。《上市公司重大资产重组管理办法》的相继修订,进一步说明了企业的借壳难度变大,但与IPO相比,大
因具有低碳、环保、可持续性等优点,以风电为代表的可再生能源发电在电力系统中的渗透率不断提高。其本身的出力不稳定性和多电力电子装置系统的电压低惯量性,导致了高渗透率
为鼓励和引导民间投资参与基础设施和公益事业项目建设中,在经济发展的推动与一系列政策的引导下,我国在公共项目改革上做出了大量工作。财政部首次定义PPP(Public Private Partnerships,即PPP)模式,并积极推行。PPP模式主要指公、私部门为提供公共产品或服务而建立的长期的合作关系,物有所值是PPP模式的核心概念,也是判断是否采用PPP模式代替政府传统采购模式,提供公共服务项目
2014年,新一次并购浪潮兴起,中国成为了此次并购浪潮的主力军。伴随并购数量和并购金额的增长,上市公司的商誉资产规模也呈现井喷式上升趋势,商誉相关问题逐渐受到了学术界和
黄金洞金矿床位于江南造山带长沙-平江金多金属成矿带,赋存在新元古代板岩中,金资源储量约85t,是该区最为典型的大型造山型金矿床。针对该矿床成矿物质来源,前人进行了大量研究,但仍争议不断,研究难点重重。因此,本文针对该矿床载金黄铁矿,运用岩相学和地球化学的方法,分析其结构及组成,取得以下成果和认识:(1)黄金洞金矿床矿石类型主要有石英硫化物脉型、蚀变板岩型、石英角砾岩型三种。成矿过程可分为石英-白钨