基于特征融合的新浪微博虚假信息检测研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:nixiangtama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展,以及以新浪微博、知乎、Twitter等为代表的各大社交媒体的不断涌现,人们获取信息的方式最初借助传统的纸质与多媒体载体,到如今,各大网络社交平台已成为人们获取信息的重要渠道之一。由于社交平台本身具备匿名性、平等性、互动性等特点,因此用户能够通过平台自由发表自己的观点,不受地域、时间等因素的限制,但也正因为这样的特点,一些居心不良的人也能够不负责任地发表一些被扭曲或者凭空捏造不存在的事情,加以一定的方法煽动网民们的情绪,以达到吸引流量等个人目的,从而给人们与社会的稳定带来威胁,如著名的“抢盐”事件等。尽管国家已采取相关措施用以维持网络安全环境,但仅通过人工的官方手段难以处理每天增长的海量数据,同时考虑到目前相关领域应用机器学习的方法存在一定的局限性,因此本文以常见的深度学习方法为基础,提出特征融合的方法用以虚假信息检测领域的研究中。本文的主要工作如下:首先,本文以新浪微博这一社交平台为基础,主要利用单一文本特征进行建模,作为本文的基础实验,这一部分的内容主要包括两个部分:一是探究不同粒度的文本表示方式对实验结果的影响,即引入公开且应用较为成熟的预训练字向量与词向量用以文本表示,以保证文本向量的质量,实验表明,基于字向量的文本表示方法明显优于基于词向量的表示方法,这一结论与自然语言处理领域其他问题得到的结论相一致;二是基于BERT模型在NLP领域多种任务重表现出的优越效果,将BERT模型引入,探究其在解决虚假信息检测问题中的优势,实验表明,BERT模型的引入有助于提高虚假信息识别的准确率,并且在多个模型的结果出表现出其稳定性。其次,本文认为虚假信息为吸引网民们的关注,往往带有较为强烈的情感以煽动网民情绪,而在目前谣言检测领域的相关研究中,对于情感特征的挖掘与利用大多停留在较为浅层的阶段,因此本文提出特征融合的方法加入情感特征,具体内容为利用目前公开的应用于新浪微博这一场景的情感分类语料作为训练集,利用BERT+Bi-LSTM模型用于训练情感分类模型,再将本文虚假信息数据集当做测试集,获取情感分析模型隐藏层输出向量与之前的单一文本特征向量进行结合,用于重新训练新的融合情感特征的虚假信息检测模型,以提高虚假信息识别的效果。实验结果表明,本文方法能够在较为理想的效果的基础上,最优模型的整体准确率最高提升1.6%,达到94.90%。最后,由于微博用户除了通过文字发表自己的观点之外,还能够通过其他多媒体形式用来加强观点表达,如视频、图片等,考虑到视频往往具有更短的有效性,本文数据集中绝大部分的视频文件已不能正常播放,因此本文主要利用图片数据作为文本补充特征,利用Res Net模型用以提取图片特征,将提取得到的图片特征与单一文本特征进行结合,用以训练新的融合图片特征的虚假信息检测模型,以提高虚假信息识别的效果。实验结果表明,相比于基于单一文本特征的实验结果,本部分多模态部分减少了约一半的数据量,因此本文方法可能导致在整体准确率上没有得到明显提升,甚至略有下降,但就虚假信息部分的识别准确率而言,在本身具备较好实验效果的基础上,其准确率依然保持约4%的提升幅度。相比于融合情感特征的实验结果,本部分的实验结果也能够说明,相比于情感特征,图片特征在虚假信息检测中具有更为重要的作用。总的来说,虽然引入特定领域的预训练字/词向量已经能够获得较好的效果,但是BERT模型的引入依然对实验效果的提升具有较为明显的作用,同时文本基于这一模型所提出的融合情感特征与图片特征的方法,主要侧重于特征层面的融合,从实验结果上看,两种方法都表现出较为理想且稳定的效果,说明本文方法在一定程度上对于提高虚假信息检测的准确性是有效的。此外,本文研究也能够为虚假信息或网络谣言检测领域在未来的研究与探索奠定一定的基础。
其他文献
近年来,随着互联网新媒体的快速发展,人们获取、交流信息的渠道多种多样,参与社会治理的意愿愈发强烈。尤其是在突发公共卫生事件中,公众的注意力高度集中于一些热点话题,极易形成网络舆情。在这种情况下,及时掌握社会舆情动态、科学应对网络舆情、有效化解舆情危机成为各级政府的必修课。2019年底开始的新冠肺炎疫情,一度让H省成为了国际国内网络舆论关注的重点,更是给H省地方政府带来了巨大的舆情压力。H省地方政府
学位
小微企业是我国经济体系的重要组成部分,但由于规模与实力的限制,小微企业的竞争能力与资金获取能力均存在一定弱势。为营造更好的环境促进小微企业稳健成长,孝感市政府积极响应国家关于小微企业的金融支持政策,全力推动政策落实。孝感市小微企业的发展空间得到很大提升,但政策在实际执行过程中,仍存在一些不足之处。基于此,本文针对孝感市小微企业金融支持政策执行问题进行系统研究,探析并尝试解决孝感市小微企业金融政策执
学位
2015年12月,国务院印发了《推进普惠金融发展规划(2016—2020年)》,将“有效提高金融服务可得性”作为普惠金融发展的总体目标之一。“十三五”规划指出要“发展农村普惠金融”,进一步的发展多样化的农村金融机构来完善农村信用担保体系。2021年中央一号文件指出“要坚持把解决好‘三农’问题作为全党工作重中之重”,并提出“发展农村数字普惠金融”。农村金融是农村经济发展的血脉,而普惠金融重视消除贫困
学位
频繁报导的恶性校园欺凌事件凸显出社会的持续关注以及我国对其进行治理的必要,即将生效的《未成年人保护法(2020修订)》专门定义了“学生欺凌”的概念,并要求学校建立学生欺凌防控工作制度,但目前我国并无规范校园欺凌的专门法律,相关防控工作缺乏具体的细则指引,各项防控措施还处于探索展开阶段,并无成熟应对方案。我国校园欺凌存在着普遍性、危害性、隐蔽性的基本特点,大量欺凌事件隐蔽于学生群体中,不能得到及时介
学位
《民法典》在侵权责任篇第1234条和1235条,赋予了环境民事公益诉讼与生态环境损害赔偿诉讼实体法依据。至此,环境侵权体系包括环境私益侵权和环境公益侵权两种类型。环境私益侵权通过常态化的民事诉讼予以救济,而环境公益侵权主要通过环境民事公益诉讼和生态环境损害赔偿诉讼予以救济。充分发挥环境民事公益诉讼和生态环境损害赔偿诉讼的作用,必须厘清其与环境私益侵权之间的异同,从而使具体司法裁判有章可循,有理可依
学位
党的十九大以来,确立了以环境发展为基础的绿色经济发展模式,习近平总书记多次提到环境保护是中国经济可持续发展的根本,只有建立完善的绿色经济发展模式,注重环境的保护工作,才能够实现经济的持续发展。水污染治理历来是政府治理的重点,做好水域垃圾治理工作,不仅能够改善人居环境,为广大百姓构建良好的生活氛围,同时也能够实现水生态系统的发展,让水生物有一个更好的生存环境。但是受到政府工作条件等因素的影响,地方政
学位
我国于1982年开始建立债券市场,此后发展迅速。经历了2015年信用债的改革,我国银行间债券市场和交易所债券市场都得到了飞速的发展,信用债券在债市中占据的比重越来越高,然而相比较国债等利率债,信用债存在着较大的违约风险。2020年是债券市场不平静的一年,我国信用债先后经历了疫情恢复期的牛市,以及货币政策收紧期的短暂熊市,年底的多只信用债暴雷更是把债市推向了风口浪尖。因此,如何利用货币政策对债市进行
学位
随着我国经济发展的国际化、以及进一步的对外开放,自贸试验区试点性地引入了临时仲裁制度,与我国原有的机构仲裁制度并存。但是由于国内的临时仲裁制度目前仍处于起步阶段,所以需要仲裁机构与司法机构适度介入。机构介入不仅在理论上具有普遍合理性,结合我国国情来看也具有现实意义与基础。司法机构对我国临时仲裁制度的介入包括两部分,一是对涉外临时仲裁的审查,二是对自贸区内临时仲裁制度的介入。在涉外临时仲裁的审查中,
学位
税务系统的政府采购工作,是我国政府采购的重要组成部分。由于其具有垂直管理、层级多、分布广、各地情况复杂等特点,税务系统政府采购的监督管理难度较大。广东省税务系统政府采购预算单位最多、采购规模较大、业务种类较有代表性。广东省税务系统政府采购监督体系以纵向监督为主,横向监督为辅,二十几年来在管理监督方面取得了一定的成绩,如使采购行为更加规范、采购效益明显提高、构建优质政府采购营商环境,是经济发达省份的
学位
涉外法治人才培养是法治中国建设的必然要求,是"构建人类命运共同体"和"一带一路"倡议的必然基础。涉外法治人才培养的指导思想标准可以概括为"维护国家利益、服务对外交往、具有国际视野、具备综合素质",目标标准可以概括为"德才兼备、国际化、复合型、精英式",实质标准可以概括为"知识标准、能力标准、素质标准"。
期刊