在线社会网络中虚假信息传播的研究

来源 :国防科技大学 | 被引量 : 2次 | 上传用户:king95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在线社会网络的发展与普及,改变了人们对信息的生产与消费方式。社交媒体的出现,极大改善了人们的生活质量、促进了社会的发展。然而,谣言、诽谤、阴谋论等虚假信息的泛滥给社交网络与现实世界带来极大危害。其所引导的错误舆论不仅会损害个人形象、公司利益、政府公信力,甚至会扰乱社会正常秩序、造成社会恐慌。当前,虚假信息泛滥已成为全球社会主要威胁之一。虚假信息与核实信息是如何竞争传播的?虚假信息在传播上有何特征,特别是异常特征?机器帐户在虚假信息传播中有何作用?如何有效对抗虚假信息的传播?当前,来自各领域的研究人员正在积极探索以上问题,研究虚假信息传播的复杂机制;而如Twitter、Facebook等平台也正在采取一些对抗手段。但是,我们发现很少有系统的、基于数据的研究来指导上述工作。本文将通过构建合适的系统而采集海量数据,如千万量级的推文数据,来对虚假信息传播作出系统的、定量的研究。主要贡献有以下四点。(1)提出了一种基于新闻源的虚假信息采集与追踪方法,并基于该方法进行了数据采集,从而为构建虚假信息传播数据集提供了有效方法。在虚假信息传播的实证研究中,首先面临内容验证的难题。面对海量信息,单纯的人工收集与验证的方式显然是不足的,因而急需自动化系统的辅助。而现有系统功能有限,或依赖于人工标注而不具扩展性、或依赖于内容验证算法而难以保证准确性。我们首次提出了基于新闻源的解决方案,即采集与追踪那些携带来自特定新闻源的URL链接的推文。与其它的系统相比,我们的系统具备可扩展性和高准确性,所收集的推文集具有完整性;所得到的具有约100万虚假信息文章和5000万相关推文的数据集,是当前研究虚假信息传播最大数据集之一。(2)提出了一种基于信息网络k-核分解的虚假信息传播分析方法,能有效识别虚假信息传播关键节点,发现了虚假信息与核实信息节点存在竞争传播的关系。受限于内容验证的难度,对于虚假信息传播的研究,或仅限于模型分析,或基于个例与少量数据的分析。得益于Hoaxy系统,我们能够第一次对大规模的虚假信息传播,尤其是其与核实信息之间的竞争,进行实证研究。特别的,我们使用k-核分解的方法,对2016年美国大选前后社交媒体上出现的大量虚假信息与揭露它们的核实信息之间的竞争传播网络进行了剖析。我们发现,当从网络边缘向网络中心移动的过程中,核实信息所占比率不断下降,直至几乎消失,但机器帐户的表现程度却不断加强。主核集用户数量在大选日左右达到均衡状态;随后的网络演化中,主核集用户很少发生变更,但它们之间的连接变得更加紧密。最后,我们通过网络渗透理论,对网络的鲁棒性进行量化评估。基于以上结果,我们首次提供了一个大型虚假信息传播网络的剖析图。(3)提出了一种虚假信息与核实信息传播过程的特征提取与分析方法,可有效对比虚假信息与核实信息的传播过程。我们以信息核实网站Snopes(snopes.com)为案例分析,发现:(a)约70%的虚假新闻会在一周内被曝光,而要达到这个曝光率,虚假新闻平均至少会出现800条推文;(b)虚假信息和与其竞争的核实信息的推文分享活动存在相关性;(c)转发类型推文是主要的传播推文,但对于核实信息的传播,回复类型的推文亦占据着相当重要的比率。以上结果表明,人工核实者在努力对抗着虚假信息传播,但人工方式并不足够有效,大量虚假信息在被核实前已大范围传播了;社交平台上,核实信息与虚假信息存在竞争关系,具有活动相关性;且社交平台上,信息的核实更具有“对话”属性。其后,我们对海量数据进行进一步的统计分析,发现了虚假信息传播的一些异常特征:(a)存在一些对同一文章进行高达上千次推送的“超级传播者”;(b)这些超级传播者即使在同一篇文章的推文分享中所占比重也异常高;(c)对比超级传播者和随机帐户的似机器性分值,超级传播者的分值明显偏高。基于以上结果,我们从多个维度对虚假信息与核实信息的竞争传播特征进行量化分析。并首次系统地、量化地分析了虚假信息传播中由机器帐户所导致的异常特征。我们的结果暗示着,在虚假信息的传播中,机器帐户很可能起着重要作用。(4)围绕机器帐户的信息传播作用开展相关研究,获得了两个重要发现,揭示了机器账户放大虚假信息传播的特殊作用,为监控虚假信息传播提供了重要手段。在案例分析中,我们发现机器帐户会采用大量重复宣传、变换与劫持Hashtag,以及插入“对话讨论”等策略来传播虚假信息。在统计分析中,我们进一步发现:(a)在虚假信息能够大规模传播前,机器帐户已活跃在其早期传播之中,从而达到扩大传播的目的;(b)机器帐户以拥有众多关注者的用户为目标,以回复和提及的方式来向目标用户投放虚假信息内容;(c)真人帐户很容易受到机器帐户的操纵,轻易再分享由机器帐户所发布的内容。通过以上结果,我们首次揭示了机器帐户是如何放大虚假信息传播的;并表明,如果要减少社交网络上虚假信息的传播,采用遏制机器帐户的方式,应该能够成为一种有效的策略。
其他文献
目的 了解青海省人体肠道蛔虫、鞭虫和蛲虫的家庭聚集性。方法 调查和粪检方法按全国人体寄生虫分布调查实施细则,统计分析应用二项分布配合X2检验。结果 对青海省2803个家庭
在多样化的社会环境、多元化的价值观念、日益复杂的人际关系等多方面的影响下,大学生的心理困扰问题愈发严重。在复杂多变的社会环境中,繁重的工作任务和特殊的工作性质是导
纳滤是一种高效水处理技术,在污废水再生、饮用水脱盐及去除有机物方面发挥重要作用,但是膜污染、“trade-off”效应限制着纳滤膜应用范围的进一步扩大。无法突破纳滤膜通量
目的 建立大鼠血浆中盐酸二甲双胍的检测方法。方法 采用离子对RP-HPLC法测定大鼠血浆中药物浓度,色谱柱为Lichrospher C18(4.6mm×250mm,5μm),流动相为3mmol/L十二烷基磺酸钠
在20世纪80年代之后,人本心理学积极关注发展具体的研究方案。叙事研究即为其中一种。它强调人类生活经验即故事,故事的讲述就是一个建构自我、他人和世界意义的过程。通过对故
肺癌是全球最常见的恶性肿瘤,也是癌症相关的主要死亡原因,它对人类健康和生命造成了巨大的威胁。传统的外科手术、化疗药物和放射治疗已经使肺癌的疗效陷入瓶颈。分子遗传学
为防止腐败在我国社会蔓延,建设全面覆盖国家机关及其公务员的国家监察体系,2016年12月25日我国发布了《关于在北京市、山西省、浙江省开展国家监察体制改革试点工作的决定》
目的 抗ENA抗体谱的临床意义与其他免疫指标的比较。方法 对103例自身免疫患者血清标本,采用免疫印迹法检测抗体,经免疫散射比浊法检测免疫球蛋白和补体。结果抗ENA抗体在自身
党的十九大报告指出,中国特色社会主义进入新时代,社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾;首次提出要实施乡村振兴战略,强调要多